Channels - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation :: FRELIP Discovery

Similar Items: WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

Quick Look
FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
Quick Look
Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents?
Quick Look
ControBench: An Interaction-Aware Benchmark for Controversial Discourse Analysis on Social Networks
Quick Look
MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following
Quick Look
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
Quick Look
CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers
Quick Look
CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing
Quick Look
TriBench-Ko: Evaluating LLM Risks in Judicial Workflows
Quick Look
Foundation Models to Unlock Real-World Evidence from Nationwide Medical Claims
Quick Look
Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs
Quick Look
A multilingual hallucination benchmark: MultiWikiQHalluA
Quick Look
MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge
Quick Look
Agentic-imodels: Evolving agentic interpretability tools via autoresearch
Quick Look
The Impossibility Triangle of Long-Context Modeling
Quick Look
Long Context Pre-Training with Lighthouse Attention
Quick Look
Synthetic Users, Real Differences: an Evaluation Framework for User Simulation in Multi-Turn Conversations
Quick Look
Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents
Quick Look
Benchmarking Parameter-Efficient Fine-Tuning of Large Language Models for Low-Resource Tajik Text Generation with the Tajik Web Corpus
Quick Look
Shadow-Loom: Causal Reasoning over Graphical World Model of Narratives
Quick Look
From Controlled to the Wild: Evaluation of Pentesting Agents for the Real-World
Quick Look
Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors
Quick Look
Can Coding Agents Reproduce Findings in Computational Materials Science?
Quick Look
SkillOS: Learning Skill Curation for Self-Evolving Agents
Quick Look
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling