Channels - Can Coding Agents Reproduce Findings in Computational Materials Science? :: FRELIP Discovery

Similar Items: Can Coding Agents Reproduce Findings in Computational Materials Science?

Quick Look
Reproducing Complex Set-Compositional Information Retrieval
Quick Look
STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?
Quick Look
Automatically Finding and Validating Unexpected Side-Effects of Interventions on Language Models
Quick Look
Agentic-imodels: Evolving agentic interpretability tools via autoresearch
Quick Look
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
Quick Look
SkillOS: Learning Skill Curation for Self-Evolving Agents
Quick Look
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
Quick Look
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
Quick Look
MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
Quick Look
Can AI Be a Good Peer Reviewer? A Survey of Peer Review Process, Evaluation, and the Future
Quick Look
FlexSQL: Flexible Exploration and Execution Make Better Text-to-SQL Agents
Quick Look
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
Quick Look
Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents
Quick Look
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
Quick Look
Stable Behavior, Limited Variation: Persona Validity in LLM Agents for Urban Sentiment Perception
Quick Look
Beating the Style Detector: Three Hours of Agentic Research on the AI-Text Arms Race
Quick Look
Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers
Quick Look
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
Quick Look
Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents?
Quick Look
A11y-Compressor: A Framework for Enhancing the Efficiency of GUI Agent Observations through Visual Context Reconstruction and Redundancy Reduction
Quick Look
CA-SQL: Complexity-Aware Inference Time Reasoning for Text-to-SQL via Exploration and Compute Budget Allocation
Quick Look
Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Geometry-Calibrated Conformal Abstention for Language Models