Channels - SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture :: FRELIP Discovery

Similar Items: SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

Quick Look
UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
Quick Look
G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models
Quick Look
HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation
Quick Look
Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation
Quick Look
A Benchmark for Interactive World Models with a Unified Action Generation Framework
Quick Look
Unified Map Prior Encoder for Mapping and Planning
Quick Look
123D: Unifying Multi-Modal Autonomous Driving Data at Scale
Quick Look
TimeLesSeg: Unified Contrast-Agnostic Cross-Sectional and Longitudinal MS Lesion Segmentation via a Stochastic Generative Model
Quick Look
UniCorrn: Unified Correspondence Transformer Across 2D and 3D
Quick Look
3D-ReGen: A Unified 3D Geometry Regeneration Framework
Quick Look
IConFace: Identity-Structure Asymmetric Conditioning for Unified Reference-Aware Face Restoration
Quick Look
A unified Benchmark for Multi-Frame Image Restoration under Severe Refractive Warping
Quick Look
CADBench: A Multimodal Benchmark for AI-Assisted CAD Program Generation
Quick Look
Enhancing Visual Question Answering with Multimodal LLMs via Chain-of-Question Guided Retrieval-Augmented Generation
Quick Look
Personal Visual Context Learning in Large Multimodal Models
Quick Look
Echo-α: Large Agentic Multimodal Reasoning Model for Ultrasound Interpretation
Quick Look
Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration
Quick Look
OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents
Quick Look
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study
Quick Look
PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning
Quick Look
UnAC: Adaptive Visual Prompting with Abstraction and Stepwise Checking for Complex Multimodal Reasoning
Quick Look
Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models
Quick Look
MPerS: Dynamic MLLM MixExperts Perception-Guided Remote Sensing Scene Segmentation
Quick Look
MedHorizon: Towards Long-context Medical Video Understanding in the Wild