Channels - Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers :: FRELIP Discovery

Similar Items: Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers

Quick Look
Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents
Quick Look
Reinforcement Learning for Compositional Generalization with Outcome-Level Optimization
Quick Look
SkillOS: Learning Skill Curation for Self-Evolving Agents
Quick Look
Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
Quick Look
Synthetic Users, Real Differences: an Evaluation Framework for User Simulation in Multi-Turn Conversations
Quick Look
Rose-SQL: Role-State Evolution Guided Structured Reasoning for Multi-Turn Text-to-SQL
Quick Look
Agentic-imodels: Evolving agentic interpretability tools via autoresearch
Quick Look
Can Coding Agents Reproduce Findings in Computational Materials Science?
Quick Look
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
Quick Look
STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?
Quick Look
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
Quick Look
MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
Quick Look
FlexSQL: Flexible Exploration and Execution Make Better Text-to-SQL Agents
Quick Look
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
Quick Look
Self-Attention as Transport: Limits of Symmetric Spectral Diagnostics
Quick Look
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
Quick Look
Stable Behavior, Limited Variation: Persona Validity in LLM Agents for Urban Sentiment Perception
Quick Look
Beating the Style Detector: Three Hours of Agentic Research on the AI-Text Arms Race
Quick Look
Beyond Confidence: Rethinking Self-Assessments for Performance Prediction in LLMs
Quick Look
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents?
Quick Look
PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization
Quick Look
MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following