Channels - Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment :: FRELIP Discovery

Similar Items: Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment

Quick Look
Aes3D: Aesthetic Assessment in 3D Gaussian Splatting
Quick Look
3D-ReGen: A Unified 3D Geometry Regeneration Framework
Quick Look
3D MRI Image Pretraining via Controllable 2D Slice Navigation Task
Quick Look
UniCorrn: Unified Correspondence Transformer Across 2D and 3D
Quick Look
DVD: Discrete Voxel Diffusion for 3D Generation and Editing
Quick Look
InpaintSLat: Inpainting Structured 3D Latents via Initial Noise Optimization
Quick Look
Generalizable Sparse-View 3D Reconstruction from Unconstrained Images
Quick Look
DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency
Quick Look
HEART: Hyperspherical Embedding Alignment via Kent-Representation Traversal in Diffusion Models
Quick Look
3D Reconstruction Techniques in the Manufacturing Domain: Applications, Research Opportunities and Use Cases
Quick Look
Map2World: Segment Map Conditioned Text to 3D World Generation
Quick Look
PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
Quick Look
HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation
Quick Look
ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation
Quick Look
Seeing Across Skies and Streets: Feedforward 3D Reconstruction from Satellite, Drone, and Ground Images
Quick Look
Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation
Quick Look
ResiHMR: Residual-Limb Aware Single-Image 3D Human Mesh Recovery for Individuals with Limb Loss
Quick Look
6D Pose Estimation via Keypoint Heatmap Regression with RGB-D Residual Neural Networks
Quick Look
Syn4D: A Multiview Synthetic 4D Dataset
Quick Look
Quantifying the human visual exposome with vision language models
Quick Look
Object Hallucination-Free Reinforcement Unlearning for Vision-Language Models
Quick Look
FoR-Net: Learning to Focus on Hard Regions for Efficient Semantic Segmentation
Quick Look
StateVLM: A State-Aware Vision-Language Model for Robotic Affordance Reasoning
Quick Look
PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature