Channels - Characterizing Universal Object Representations Across Vision Models :: FRELIP Discovery

Similar Items: Characterizing Universal Object Representations Across Vision Models

Quick Look
Object Hallucination-Free Reinforcement Unlearning for Vision-Language Models
Quick Look
Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment
Quick Look
Quantifying the human visual exposome with vision language models
Quick Look
ALAM: Algebraically Consistent Latent Transitions for Vision-Language-Action Models
Quick Look
StateVLM: A State-Aware Vision-Language Model for Robotic Affordance Reasoning
Quick Look
HEART: Hyperspherical Embedding Alignment via Kent-Representation Traversal in Diffusion Models
Quick Look
PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature
Quick Look
When Relations Break: Analyzing Relation Hallucination in Vision-Language Model Under Rotation and Noise
Quick Look
Towards a Large Language-Vision Question Answering Model for MSTAR Automatic Target Recognition
Quick Look
CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models
Quick Look
Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
Quick Look
Linearizing Vision Transformer with Test-Time Training
Quick Look
Representation Fréchet Loss for Visual Generation
Quick Look
Geometry-Aware State Space Model: A New Paradigm for Whole-Slide Image Representation
Quick Look
Prompt-Anchored Vision-Text Distillation for Lifelong Person Re-identification
Quick Look
LychSim: A Controllable and Interactive Simulation Framework for Vision Research
Quick Look
TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning
Quick Look
VIP: Visual-guided Prompt Evolution for Efficient Dense Vision-Language Inference
Quick Look
Action Motifs: Self-Supervised Hierarchical Representation of Human Body Movements
Quick Look
Learning Coarse-to-Fine Osteoarthritis Representations under Noisy Hierarchical Labels
Quick Look
Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenizatio
Quick Look
SEMIR: Semantic Minor-Induced Representation Learning on Graphs for Visual Segmentation
Quick Look
Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation
Quick Look
DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency