Channels - Let ViT Speak: Generative Language-Image Pre-training :: FRELIP Discovery

Similar Items: Let ViT Speak: Generative Language-Image Pre-training

Quick Look
RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction
Quick Look
Large Language Models are Universal Reasoners for Visual Generation
Quick Look
LoViF 2026 The First Challenge on Holistic Quality Assessment for 4D World Model (PhyScore)
Quick Look
FREPix: Frequency-Heterogeneous Flow Matching for Pixel-Space Image Generation
Quick Look
SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation
Quick Look
FlowDIS: Language-Guided Dichotomous Image Segmentation with Flow Matching
Quick Look
FreeSpec: Training-Free Long Video Generation via Singular-Spectrum Reconstruction
Quick Look
GlazyBench: A Benchmark for Ceramic Glaze Property Prediction and Image Generation
Quick Look
AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images
Quick Look
PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature
Quick Look
Linearizing Vision Transformer with Test-Time Training
Quick Look
PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning
Quick Look
BAMI: Training-Free Bias Mitigation in GUI Grounding
Quick Look
Representation Fréchet Loss for Visual Generation
Quick Look
FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction
Quick Look
Continuous Latent Diffusion Language Model
Quick Look
DMGD: Train-Free Dataset Distillation with Semantic-Distribution Matching in Diffusion Models
Quick Look
Empirical Evidence for Simply Connected Decision Regions in Image Classifiers
Quick Look
Identity-Consistent Multi-Pose Generation of Contactless Fingerprints
Quick Look
DCR: Counterfactual Attractor Guidance for Rare Compositional Generation
Quick Look
Generalizable Sparse-View 3D Reconstruction from Unconstrained Images
Quick Look
TOC-SR: Task-Optimal Compact diffusion for Image Super Resolution
Quick Look
Edge-Efficient Image Restoration: Transformer Distillation into State-Space Models
Quick Look
Pixel Perfect: Relational Image Quality Assessment with Spatially-Aware Distortions