Channels - StateVLM: A State-Aware Vision-Language Model for Robotic Affordance Reasoning :: FRELIP Discovery

Similar Items: StateVLM: A State-Aware Vision-Language Model for Robotic Affordance Reasoning

Quick Look
Task-Aware Scanning Parameter Configuration for Robotic Inspection Using Vision Language Embeddings and Hyperdimensional Computing
Quick Look
Wasserstein-Aligned Localisation for VLM-Based Distributional OOD Detection in Medical Imaging
Quick Look
Large Language Models are Universal Reasoners for Visual Generation
Quick Look
Quantifying the human visual exposome with vision language models
Quick Look
Object Hallucination-Free Reinforcement Unlearning for Vision-Language Models
Quick Look
Affordance Agent Harness: Verification-Gated Skill Orchestration
Quick Look
GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning
Quick Look
PhysEdit: Physically-Consistent Region-Aware Image Editing via Adaptive Spatio-Temporal Reasoning
Quick Look
PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature
Quick Look
Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation
Quick Look
When Relations Break: Analyzing Relation Hallucination in Vision-Language Model Under Rotation and Noise
Quick Look
DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency
Quick Look
Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment
Quick Look
Geometry-Aware State Space Model: A New Paradigm for Whole-Slide Image Representation
Quick Look
Perceptual Flow Network for Visually Grounded Reasoning
Quick Look
Linearizing Vision Transformer with Test-Time Training
Quick Look
OmniRobotHome: A Multi-Camera Platform for Real-Time Multiadic Human-Robot Interaction
Quick Look
Echo-α: Large Agentic Multimodal Reasoning Model for Ultrasound Interpretation
Quick Look
Prompt-Anchored Vision-Text Distillation for Lifelong Person Re-identification
Quick Look
TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning
Quick Look
UnAC: Adaptive Visual Prompting with Abstraction and Stepwise Checking for Complex Multimodal Reasoning
Quick Look
Temporally Consistent Object 6D Pose Estimation for Robot Control
Quick Look
LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models
Quick Look
Reconstruction or Semantics? What Makes a Latent Space Useful for Robotic World Models