Channels - Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation :: FRELIP Discovery

Similar Items: Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation

Quick Look
G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models
Quick Look
SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture
Quick Look
Representation Fréchet Loss for Visual Generation
Quick Look
123D: Unifying Multi-Modal Autonomous Driving Data at Scale
Quick Look
A Benchmark for Interactive World Models with a Unified Action Generation Framework
Quick Look
A unified Benchmark for Multi-Frame Image Restoration under Severe Refractive Warping
Quick Look
Large Language Models are Universal Reasoners for Visual Generation
Quick Look
Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
Quick Look
HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation
Quick Look
UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
Quick Look
EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction
Quick Look
Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
Quick Look
Let ViT Speak: Generative Language-Image Pre-training
Quick Look
FREPix: Frequency-Heterogeneous Flow Matching for Pixel-Space Image Generation
Quick Look
SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation
Quick Look
TimeLesSeg: Unified Contrast-Agnostic Cross-Sectional and Longitudinal MS Lesion Segmentation via a Stochastic Generative Model
Quick Look
Enhancing Visual Question Answering with Multimodal LLMs via Chain-of-Question Guided Retrieval-Augmented Generation
Quick Look
GlazyBench: A Benchmark for Ceramic Glaze Property Prediction and Image Generation
Quick Look
Pixal3D: Pixel-Aligned 3D Generation from Images
Quick Look
Unified Map Prior Encoder for Mapping and Planning
Quick Look
AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images
Quick Look
UniCorrn: Unified Correspondence Transformer Across 2D and 3D
Quick Look
3D-ReGen: A Unified 3D Geometry Regeneration Framework
Quick Look
IConFace: Identity-Structure Asymmetric Conditioning for Unified Reference-Aware Face Restoration