Channels - DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency :: FRELIP Discovery

Similar Items: DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency

Quick Look
Prompt-Anchored Vision-Text Distillation for Lifelong Person Re-identification
Quick Look
3D MRI Image Pretraining via Controllable 2D Slice Navigation Task
Quick Look
D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
Quick Look
Quantifying the human visual exposome with vision language models
Quick Look
Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment
Quick Look
Object Hallucination-Free Reinforcement Unlearning for Vision-Language Models
Quick Look
Flow-OPD: On-Policy Distillation for Flow Matching Models
Quick Look
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation
Quick Look
StateVLM: A State-Aware Vision-Language Model for Robotic Affordance Reasoning
Quick Look
Edge-Efficient Image Restoration: Transformer Distillation into State-Space Models
Quick Look
PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature
Quick Look
Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation
Quick Look
When Relations Break: Analyzing Relation Hallucination in Vision-Language Model Under Rotation and Noise
Quick Look
Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding
Quick Look
DMGD: Train-Free Dataset Distillation with Semantic-Distribution Matching in Diffusion Models
Quick Look
Task-Aware Scanning Parameter Configuration for Robotic Inspection Using Vision Language Embeddings and Hyperdimensional Computing
Quick Look
PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning
Quick Look
Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation
Quick Look
Identity-Consistent Multi-Pose Generation of Contactless Fingerprints
Quick Look
Temporally Consistent Object 6D Pose Estimation for Robot Control
Quick Look
Linearizing Vision Transformer with Test-Time Training
Quick Look
PhysEdit: Physically-Consistent Region-Aware Image Editing via Adaptive Spatio-Temporal Reasoning
Quick Look
TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning
Quick Look
Reduced-order Neural Modeling with Differentiable Simulation for High-Detail Tactile Perception