Channels - G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models :: FRELIP Discovery

Similar Items: G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models

Quick Look
SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture
Quick Look
Enhancing Visual Question Answering with Multimodal LLMs via Chain-of-Question Guided Retrieval-Augmented Generation
Quick Look
Unified Map Prior Encoder for Mapping and Planning
Quick Look
Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation
Quick Look
UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
Quick Look
One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy
Quick Look
Personal Visual Context Learning in Large Multimodal Models
Quick Look
UnAC: Adaptive Visual Prompting with Abstraction and Stepwise Checking for Complex Multimodal Reasoning
Quick Look
Representation Fréchet Loss for Visual Generation
Quick Look
Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models
Quick Look
CADBench: A Multimodal Benchmark for AI-Assisted CAD Program Generation
Quick Look
A Benchmark for Interactive World Models with a Unified Action Generation Framework
Quick Look
Large Language Models are Universal Reasoners for Visual Generation
Quick Look
VIP: Visual-guided Prompt Evolution for Efficient Dense Vision-Language Inference
Quick Look
Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
Quick Look
EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction
Quick Look
HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation
Quick Look
Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
Quick Look
Towards Highly-Constrained Human Motion Generation with Retrieval-Guided Diffusion Noise Optimization
Quick Look
TimeLesSeg: Unified Contrast-Agnostic Cross-Sectional and Longitudinal MS Lesion Segmentation via a Stochastic Generative Model
Quick Look
123D: Unifying Multi-Modal Autonomous Driving Data at Scale
Quick Look
Echo-α: Large Agentic Multimodal Reasoning Model for Ultrasound Interpretation
Quick Look
Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration
Quick Look
OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents