Channels - Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation :: FRELIP Discovery

Similar Items: Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation

Quick Look
Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment
Quick Look
Quantifying the human visual exposome with vision language models
Quick Look
Object Hallucination-Free Reinforcement Unlearning for Vision-Language Models
Quick Look
StateVLM: A State-Aware Vision-Language Model for Robotic Affordance Reasoning
Quick Look
PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature
Quick Look
When Relations Break: Analyzing Relation Hallucination in Vision-Language Model Under Rotation and Noise
Quick Look
DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency
Quick Look
Relit-LiVE: Relight Video by Jointly Learning Environment Video
Quick Look
Seeing Across Skies and Streets: Feedforward 3D Reconstruction from Satellite, Drone, and Ground Images
Quick Look
Task-Aware Scanning Parameter Configuration for Robotic Inspection Using Vision Language Embeddings and Hyperdimensional Computing
Quick Look
Posterior Augmented Flow Matching
Quick Look
Linearizing Vision Transformer with Test-Time Training
Quick Look
AesRM: Improving Video Aesthetics with Expert-Level Feedback
Quick Look
Static and Dynamic Graph Alignment Network for Temporal Video Grounding
Quick Look
MedHorizon: Towards Long-context Medical Video Understanding in the Wild
Quick Look
Prompt-Anchored Vision-Text Distillation for Lifelong Person Re-identification
Quick Look
CMTA: Leveraging Cross-Modal Temporal Artifacts for Generalizable AI-Generated Video Detection
Quick Look
Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation
Quick Look
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance
Quick Look
FreeSpec: Training-Free Long Video Generation via Singular-Spectrum Reconstruction
Quick Look
TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning
Quick Look
Action Motifs: Self-Supervised Hierarchical Representation of Human Body Movements
Quick Look
Active Sampling for Ultra-Low-Bit-Rate Video Compression via Conditional Controlled Diffusion
Quick Look
ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation