Channels - Audio-Visual Intelligence in Large Foundation Models :: FRELIP Discovery

Similar Items: Audio-Visual Intelligence in Large Foundation Models

Quick Look
Large Language Models are Universal Reasoners for Visual Generation
Quick Look
Agentic AIs Are the Missing Paradigm for Out-of-Distribution Generalization in Foundation Models
Quick Look
Foundation AI Models for Aerosol Optical Depth Estimation from PACE Satellite Data
Quick Look
OphMAE: Bridging Volumetric and Planar Imaging with a Foundation Model for Adaptive Ophthalmological Diagnosis
Quick Look
Quantifying the human visual exposome with vision language models
Quick Look
Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
Quick Look
One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy
Quick Look
EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction
Quick Look
Echo-α: Large Agentic Multimodal Reasoning Model for Ultrasound Interpretation
Quick Look
Representation Fréchet Loss for Visual Generation
Quick Look
Perceptual Flow Network for Visually Grounded Reasoning
Quick Look
Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
Quick Look
MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence
Quick Look
UnAC: Adaptive Visual Prompting with Abstraction and Stepwise Checking for Complex Multimodal Reasoning
Quick Look
Enhancing Visual Question Answering with Multimodal LLMs via Chain-of-Question Guided Retrieval-Augmented Generation
Quick Look
Hyperbolic Concept Bottleneck Models
Quick Look
Continuous Latent Diffusion Language Model
Quick Look
Flow-OPD: On-Policy Distillation for Flow Matching Models
Quick Look
Computer-Aided Design Generation by Cascaded Discrete Diffusion Model
Quick Look
Object Hallucination-Free Reinforcement Unlearning for Vision-Language Models
Quick Look
Edge-Efficient Image Restoration: Transformer Distillation into State-Space Models
Quick Look
DMGD: Train-Free Dataset Distillation with Semantic-Distribution Matching in Diffusion Models
Quick Look
A Benchmark for Interactive World Models with a Unified Action Generation Framework
Quick Look
Reduced-order Neural Modeling with Differentiable Simulation for High-Detail Tactile Perception