Channels - Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why :: FRELIP Discovery

Similar Items: Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why

Quick Look
Compute Where it Counts: Self Optimizing Language Models
Quick Look
Where's the Plan? Locating Latent Planning in Language Models with Lightweight Mechanistic Interventions
Quick Look
Standing on the Shoulders of Giants: Stabilized Knowledge Distillation for Cross--Language Code Clone Detection
Quick Look
UniSD: Towards a Unified Self-Distillation Framework for Large Language Models
Quick Look
Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML
Quick Look
Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients
Quick Look
When and Why SignSGD Outperforms SGD: A Theoretical Study Based on $ell_1$-norm Lower Bounds
Quick Look
Optimal Posterior Sampling for Policy Identification in Tabular Markov Decision Processes
Quick Look
RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
Quick Look
Adaptive Policy Selection and Fine-Tuning under Interaction Budgets for Offline-to-Online Reinforcement Learning
Quick Look
Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding
Quick Look
Early Detection of Water Stress by Plant Electrophysiology: Machine Learning for Irrigation Management
Quick Look
Exponential families from a single KL identity
Quick Look
TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering
Quick Look
A Unified Framework of Hyperbolic Graph Representation Learning Methods
Quick Look
Assessing the Role of Intersection Proximity in Pedestrian Crashes: Insights from Data Mining Approach
Quick Look
PROMISE-AD: Progression-aware Multi-horizon Survival Estimation for Alzheimer's Disease Progression and Dynamic Tracking
Quick Look
Auto-FlexSwitch: Efficient Dynamic Model Merging via Learnable Task Vector Compression
Quick Look
Neural Aided Kalman Filtering for UAV State Estimation in Degraded Sensing Environments
Quick Look
FiLMMeD: Feature-wise Linear Modulation for Cross-Problem Multi-Depot Vehicle Routing
Quick Look
Efficient Multivector Retrieval with Token-Aware Clustering and Hierarchical Indexing
Quick Look
Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces
Quick Look
Do Sparse Autoencoders Capture Concept Manifolds?
Quick Look
DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures