Channels - Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards :: FRELIP Discovery

Similar Items: Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards

Quick Look
Misaligned by Reward: Socially Undesirable Preferences in LLMs
Quick Look
Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning
Quick Look
Shadow-Loom: Causal Reasoning over Graphical World Model of Narratives
Quick Look
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
Quick Look
GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning
Quick Look
Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
Quick Look
Accurate Legal Reasoning at Scale: Neuro-Symbolic Offloading and Structural Auditability for Robust Legal Adjudication
Quick Look
Rose-SQL: Role-State Evolution Guided Structured Reasoning for Multi-Turn Text-to-SQL
Quick Look
Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration
Quick Look
Beyond Semantics: An Evidential Reasoning-Aware Multi-View Learning Framework for Trustworthy Mental Health Prediction
Quick Look
Efficient Pre-Training with Token Superposition
Quick Look
UFAL-CUNI at SemEval-2026 Task 11: An Efficient Modular Neuro-symbolic Method for Syllogistic Reasoning
Quick Look
CA-SQL: Complexity-Aware Inference Time Reasoning for Text-to-SQL via Exploration and Compute Budget Allocation
Quick Look
Long Context Pre-Training with Lighthouse Attention
Quick Look
From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction
Quick Look
Rethinking Local Learning: A Cheaper and Faster Recipe for LLM Post-Training
Quick Look
How to Train Your Latent Diffusion Language Model Jointly With the Latent Space
Quick Look
CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers
Quick Look
Fuzzy Fingerprinting Encoder Pre-trained Language Models for Emotion Recognition in Conversations: Human Assessment and Validity Study
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Geometry-Calibrated Conformal Abstention for Language Models
Quick Look
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
Quick Look
DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models
Quick Look
Can AI Be a Good Peer Reviewer? A Survey of Peer Review Process, Evaluation, and the Future