Channels - Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR :: FRELIP Discovery

Similar Items: Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR

Quick Look
Trajectory as the Teacher: Few-Step Discrete Flow Matching via Energy-Navigated Distillation
Quick Look
KL for a KL: On-Policy Distillation with Control Variate Baseline
Quick Look
Step Rejection Fine-Tuning: A Practical Distillation Recipe
Quick Look
CA-SQL: Complexity-Aware Inference Time Reasoning for Text-to-SQL via Exploration and Compute Budget Allocation
Quick Look
Uncertainty-Aware Structured Data Extraction from Full CMR Reports via Distilled LLMs
Quick Look
Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning
Quick Look
Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards
Quick Look
Shadow-Loom: Causal Reasoning over Graphical World Model of Narratives
Quick Look
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
Quick Look
GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning
Quick Look
Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge
Quick Look
Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
Quick Look
Accurate Legal Reasoning at Scale: Neuro-Symbolic Offloading and Structural Auditability for Robust Legal Adjudication
Quick Look
Rose-SQL: Role-State Evolution Guided Structured Reasoning for Multi-Turn Text-to-SQL
Quick Look
Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration
Quick Look
Beyond Semantics: An Evidential Reasoning-Aware Multi-View Learning Framework for Trustworthy Mental Health Prediction
Quick Look
Detecting Hallucinations in Large Language Models via Internal Attention Divergence Signals
Quick Look
UFAL-CUNI at SemEval-2026 Task 11: An Efficient Modular Neuro-symbolic Method for Syllogistic Reasoning
Quick Look
Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling
Quick Look
Self-Attention as Transport: Limits of Symmetric Spectral Diagnostics
Quick Look
SkillOS: Learning Skill Curation for Self-Evolving Agents
Quick Look
Beyond Confidence: Rethinking Self-Assessments for Performance Prediction in LLMs
Quick Look
FlexSQL: Flexible Exploration and Execution Make Better Text-to-SQL Agents
Quick Look
Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers