Channels - Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training :: FRELIP Discovery

Similar Items: Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

Quick Look
AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward
Quick Look
RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
Quick Look
DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices
Quick Look
Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why
Quick Look
Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring
Quick Look
Do Sparse Autoencoders Capture Concept Manifolds?
Quick Look
Proximal Projection for Doubly Sparse Regularized Models
Quick Look
TextSeal: A Localized LLM Watermark for Provenance & Distillation Protection
Quick Look
Standing on the Shoulders of Giants: Stabilized Knowledge Distillation for Cross--Language Code Clone Detection
Quick Look
UniSD: Towards a Unified Self-Distillation Framework for Large Language Models
Quick Look
Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime
Quick Look
Routers Learn the Geometry of Their Experts: Geometric Coupling in Sparse Mixture-of-Experts
Quick Look
A decoupled diffusion planner that adapts to changing cost limits by using cost-conditioned generation for safety and reward gradients for performance
Quick Look
SLIM: Sparse Latent Steering for Interpretable and Property-Directed LLM-Based Molecular Editing
Quick Look
Universality in Deep Neural Networks: An approach via the Lindeberg exchange principle
Quick Look
Adaptive Domain Decomposition Physics-Informed Neural Networks for Traffic State Estimation with Sparse Sensor Data
Quick Look
Computing Equilibrium beyond Unilateral Deviation
Quick Look
Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients
Quick Look
Building informative materials datasets beyond targeted objectives
Quick Look
Raising the Ceiling: Better Empirical Fixation Densities for Saliency Benchmarking
Quick Look
Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers
Quick Look
Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces
Quick Look
Beyond Pairs: Your Language Model is Secretly Optimizing a Preference Graph
Quick Look
Robust and Fast Training via Per-Sample Clipping