Channels - Aligning Flow Map Policies with Optimal Q-Guidance :: FRELIP Discovery

Similar Items: Aligning Flow Map Policies with Optimal Q-Guidance

Quick Look
Task-Adaptive Embedding Refinement via Test-time LLM Guidance
Quick Look
Optimal Posterior Sampling for Policy Identification in Tabular Markov Decision Processes
Quick Look
ORCE: Order-Aware Alignment of Verbalized Confidence in Large Language Models
Quick Look
Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces
Quick Look
Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients
Quick Look
ELF: Embedded Language Flows
Quick Look
On the Wasserstein Gradient Flow Interpretation of Drifting Models
Quick Look
Mapping the Phase Diagram of the Vicsek Model with Machine Learning
Quick Look
Hybrid Quantum-Classical GANs for the Generation of Adversarial Network Flows
Quick Look
Zero-Shot Imagined Speech Decoding via Imagined-to-Listened MEG Mapping
Quick Look
Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why
Quick Look
STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation
Quick Look
Flow Sampling: Learning to Sample from Unnormalized Densities via Denoising Conditional Processes
Quick Look
Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as Pretraining Forgets Less
Quick Look
PropSplat: Map-Free RF Field Reconstruction via 3D Gaussian Propagation Splatting
Quick Look
R-DMesh: Video-Guided 3D Animation via Rectified Dynamic Mesh Flow
Quick Look
On Adaptivity in Zeroth-Order Optimization
Quick Look
RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
Quick Look
Adaptive Policy Selection and Fine-Tuning under Interaction Budgets for Offline-to-Online Reinforcement Learning
Quick Look
Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training
Quick Look
Environment-Adaptive Preference Optimization for Wildfire Prediction
Quick Look
Joint Treatment Effect Estimation from Incomplete Healthcare Data: Temporal Causal Normalizing Flows with LLM-driven Evolutionary MNAR Imputation
Quick Look
Global Optimality for Constrained Exploration via Penalty Regularization
Quick Look
Compute Where it Counts: Self Optimizing Language Models