Channels - GMGaze: MoE-Based Context-Aware Gaze Estimation with CLIP and Multiscale Transformer :: FRELIP Discovery

Similar Items: GMGaze: MoE-Based Context-Aware Gaze Estimation with CLIP and Multiscale Transformer

Quick Look
TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning
Quick Look
MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with Hardware-Accelerated Communication on Multi-GPU Systems
Quick Look
MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons
Quick Look
MoCoTalk: Multi-Conditional Diffusion with Adaptive Router for Controllable Talking Head Generation
Quick Look
Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs
Quick Look
Linearizing Vision Transformer with Test-Time Training
Quick Look
MedHorizon: Towards Long-context Medical Video Understanding in the Wild
Quick Look
RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction
Quick Look
Pixel Perfect: Relational Image Quality Assessment with Spatially-Aware Distortions
Quick Look
Edge-Efficient Image Restoration: Transformer Distillation into State-Space Models
Quick Look
Faithful Extreme Image Rescaling with Learnable Reversible Transformation and Semantic Priors
Quick Look
UHR-Net: An Uncertainty-Aware Hypergraph Refinement Network for Medical Image Segmentation
Quick Look
E = T*H/(O+B): A Dimensionless Control Parameter for Mixture-of-Experts Ecology
Quick Look
UniCorrn: Unified Correspondence Transformer Across 2D and 3D
Quick Look
SAIL: Structure-Aware Interpretable Learning for Anatomy-Aligned Post-hoc Explanations in OCT
Quick Look
IConFace: Identity-Structure Asymmetric Conditioning for Unified Reference-Aware Face Restoration
Quick Look
Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation
Quick Look
StateVLM: A State-Aware Vision-Language Model for Robotic Affordance Reasoning
Quick Look
Temporally Consistent Object 6D Pose Estimation for Robot Control
Quick Look
Geometry-Aware State Space Model: A New Paradigm for Whole-Slide Image Representation
Quick Look
PhysEdit: Physically-Consistent Region-Aware Image Editing via Adaptive Spatio-Temporal Reasoning
Quick Look
Task-Aware Scanning Parameter Configuration for Robotic Inspection Using Vision Language Embeddings and Hyperdimensional Computing
Quick Look
Foundation AI Models for Aerosol Optical Depth Estimation from PACE Satellite Data
Quick Look
Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback