Channels - Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization :: FRELIP Discovery

Similar Items: Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization

Quick Look
Misaligned by Reward: Socially Undesirable Preferences in LLMs
Quick Look
Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards
Quick Look
Temper and Tilt Lead to SLOP: Reward Hacking Mitigation with Inference-Time Alignment
Quick Look
Reinforcement Learning for Compositional Generalization with Outcome-Level Optimization
Quick Look
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
Quick Look
Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning
Quick Look
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
Quick Look
Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients
Quick Look
MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
Quick Look
MARBLE: Multi-Aspect Reward Balance for Diffusion RL
Quick Look
Unpaired Image Deraining Using Reward-Guided Self-Reinforcement Strategy
Quick Look
Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
Quick Look
Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory
Quick Look
Beyond Semantics: An Evidential Reasoning-Aware Multi-View Learning Framework for Trustworthy Mental Health Prediction
Quick Look
KL for a KL: On-Policy Distillation with Control Variate Baseline
Quick Look
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
Quick Look
Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents
Quick Look
Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation
Quick Look
Agentic-imodels: Evolving agentic interpretability tools via autoresearch
Quick Look
A multilingual hallucination benchmark: MultiWikiQHalluA
Quick Look
FlowCompile: An Optimizing Compiler for Structured LLM Workflows
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Segmenting Human-LLM Co-authored Text via Change Point Detection
Quick Look
Detecting Hallucinations in Large Language Models via Internal Attention Divergence Signals