Channels - RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards :: FRELIP Discovery

Similar Items: RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

Quick Look
Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning
Quick Look
Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime
Quick Look
Exploration Hacking: Can LLMs Learn to Resist RL Training?
Quick Look
Enhancing RL Generalizability in Robotics through SHAP Analysis of Algorithms and Hyperparameters
Quick Look
Verifier-Backed Hard Problem Generation for Mathematical Reasoning
Quick Look
Trust, but Verify: Peeling Low-Bit Transformer Networks for Training Monitoring
Quick Look
Enhancing Judgment Document Generation via Agentic Legal Information Collection and Rubric-Guided Optimization
Quick Look
Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring
Quick Look
A decoupled diffusion planner that adapts to changing cost limits by using cost-conditioned generation for safety and reward gradients for performance
Quick Look
Computing Equilibrium beyond Unilateral Deviation
Quick Look
Adaptive Domain Decomposition Physics-Informed Neural Networks for Traffic State Estimation with Sparse Sensor Data
Quick Look
Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients
Quick Look
Building informative materials datasets beyond targeted objectives
Quick Look
Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers
Quick Look
Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces
Quick Look
Beyond Pairs: Your Language Model is Secretly Optimizing a Preference Graph
Quick Look
Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why
Quick Look
NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search
Quick Look
Optimal Posterior Sampling for Policy Identification in Tabular Markov Decision Processes
Quick Look
Evaluation of Preclinical Class II Composite Restoration Performed by Dental Students Using Analytic Rubric Parameters
Quick Look
Adaptive Policy Selection and Fine-Tuning under Interaction Budgets for Offline-to-Online Reinforcement Learning
Quick Look
MARBLE: Multi-Aspect Reward Balance for Diffusion RL
Quick Look
Early Detection of Water Stress by Plant Electrophysiology: Machine Learning for Irrigation Management
Quick Look
Exponential families from a single KL identity