Channels - VIP: Visual-guided Prompt Evolution for Efficient Dense Vision-Language Inference :: FRELIP Discovery

Similar Items: VIP: Visual-guided Prompt Evolution for Efficient Dense Vision-Language Inference

Quick Look
Quantifying the human visual exposome with vision language models
Quick Look
Prompt-Anchored Vision-Text Distillation for Lifelong Person Re-identification
Quick Look
UnAC: Adaptive Visual Prompting with Abstraction and Stepwise Checking for Complex Multimodal Reasoning
Quick Look
EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction
Quick Look
Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation
Quick Look
Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment
Quick Look
RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction
Quick Look
Object Hallucination-Free Reinforcement Unlearning for Vision-Language Models
Quick Look
ALAM: Algebraically Consistent Latent Transitions for Vision-Language-Action Models
Quick Look
Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
Quick Look
Large Language Models are Universal Reasoners for Visual Generation
Quick Look
Rethinking Dense Optical Flow without Test-Time Scaling
Quick Look
StateVLM: A State-Aware Vision-Language Model for Robotic Affordance Reasoning
Quick Look
PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature
Quick Look
When Relations Break: Analyzing Relation Hallucination in Vision-Language Model Under Rotation and Noise
Quick Look
DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency
Quick Look
Towards a Large Language-Vision Question Answering Model for MSTAR Automatic Target Recognition
Quick Look
CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models
Quick Look
Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
Quick Look
Enhancing Visual Question Answering with Multimodal LLMs via Chain-of-Question Guided Retrieval-Augmented Generation
Quick Look
G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models
Quick Look
Task-Aware Scanning Parameter Configuration for Robotic Inspection Using Vision Language Embeddings and Hyperdimensional Computing
Quick Look
FlowDIS: Language-Guided Dichotomous Image Segmentation with Flow Matching
Quick Look
Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models