Channels - Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning :: FRELIP Discovery

Similar Items: Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

Quick Look
How to Train Your Latent Diffusion Language Model Jointly With the Latent Space
Quick Look
Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients
Quick Look
Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards
Quick Look
Shadow-Loom: Causal Reasoning over Graphical World Model of Narratives
Quick Look
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
Quick Look
GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning
Quick Look
Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
Quick Look
Accurate Legal Reasoning at Scale: Neuro-Symbolic Offloading and Structural Auditability for Robust Legal Adjudication
Quick Look
Rose-SQL: Role-State Evolution Guided Structured Reasoning for Multi-Turn Text-to-SQL
Quick Look
Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration
Quick Look
Beyond Semantics: An Evidential Reasoning-Aware Multi-View Learning Framework for Trustworthy Mental Health Prediction
Quick Look
SCENE: Recognizing Social Norms and Sanctioning in Group Chats
Quick Look
UFAL-CUNI at SemEval-2026 Task 11: An Efficient Modular Neuro-symbolic Method for Syllogistic Reasoning
Quick Look
CA-SQL: Complexity-Aware Inference Time Reasoning for Text-to-SQL via Exploration and Compute Budget Allocation
Quick Look
KL for a KL: On-Policy Distillation with Control Variate Baseline
Quick Look
Reinforcement Learning for Compositional Generalization with Outcome-Level Optimization
Quick Look
MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
Quick Look
OrScale: Orthogonalised Optimization with Layer-Wise Trust-Ratio Scaling
Quick Look
Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory
Quick Look
Continuous Latent Diffusion Language Model
Quick Look
LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Geometry-Calibrated Conformal Abstention for Language Models
Quick Look
From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction