Channels - BabelDOC: Better Layout-Preserving PDF Translation via Intermediate Representation :: FRELIP Discovery

Similar Items: BabelDOC: Better Layout-Preserving PDF Translation via Intermediate Representation

Quick Look
HEART: Hyperspherical Embedding Alignment via Kent-Representation Traversal in Diffusion Models
Quick Look
Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment
Quick Look
Representation Fréchet Loss for Visual Generation
Quick Look
Action Motifs: Self-Supervised Hierarchical Representation of Human Body Movements
Quick Look
Learning Coarse-to-Fine Osteoarthritis Representations under Noisy Hierarchical Labels
Quick Look
Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenizatio
Quick Look
Robustness and Transferability of Pix2Geomodel for Bidirectional Facies Property Translation in a Complex Reservoir
Quick Look
Continuous-tone Simple Points: An $ell_0$-Norm of Cyclic Gradient for Topology-Preserving Data-Driven Image Segmentation
Quick Look
Geometry-Aware State Space Model: A New Paradigm for Whole-Slide Image Representation
Quick Look
PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning
Quick Look
InpaintSLat: Inpainting Structured 3D Latents via Initial Noise Optimization
Quick Look
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance
Quick Look
FreeSpec: Training-Free Long Video Generation via Singular-Spectrum Reconstruction
Quick Look
Active Sampling for Ultra-Low-Bit-Rate Video Compression via Conditional Controlled Diffusion
Quick Look
3D MRI Image Pretraining via Controllable 2D Slice Navigation Task
Quick Look
SphereVAD: Training-Free Video Anomaly Detection via Geodesic Inference on the Unit Hypersphere
Quick Look
Uncertainty Quantification for Cardiac Shape Reconstruction with Deep Signed Distance Functions via MCMC methods
Quick Look
LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models
Quick Look
SIAM: Head and Brain MRI Segmentation from Few High-Quality Templates via Synthetic Training
Quick Look
UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
Quick Look
PhysEdit: Physically-Consistent Region-Aware Image Editing via Adaptive Spatio-Temporal Reasoning
Quick Look
Enhancing Visual Question Answering with Multimodal LLMs via Chain-of-Question Guided Retrieval-Augmented Generation
Quick Look
6D Pose Estimation via Keypoint Heatmap Regression with RGB-D Residual Neural Networks
Quick Look
Rapid Forest Fuel Load Estimation via Virtual Remote Sensing and Metric-Scale Feed-Forward 3D Reconstruction