Channels - LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues :: FRELIP Discovery

Similar Items: LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

Quick Look
WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
Quick Look
The Impossibility Triangle of Long-Context Modeling
Quick Look
Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents?
Quick Look
Long Context Pre-Training with Lighthouse Attention
Quick Look
SemEval-2026 Task 7: Everyday Knowledge Across Diverse Languages and Cultures
Quick Look
mdok-style at SemEval-2026 Task 10: Finetuning LLMs for Conspiracy Detection
Quick Look
mdok-style at SemEval-2026 Task 9: Finetuning LLMs for Multilingual Polarization Detection
Quick Look
STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?
Quick Look
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
Quick Look
UFAL-CUNI at SemEval-2026 Task 11: An Efficient Modular Neuro-symbolic Method for Syllogistic Reasoning
Quick Look
MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge
Quick Look
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
Quick Look
Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents
Quick Look
From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction
Quick Look
Agentic-imodels: Evolving agentic interpretability tools via autoresearch
Quick Look
Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory
Quick Look
CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing
Quick Look
Can Coding Agents Reproduce Findings in Computational Materials Science?
Quick Look
SkillOS: Learning Skill Curation for Self-Evolving Agents
Quick Look
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
Quick Look
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
Quick Look
MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
Quick Look
FlexSQL: Flexible Exploration and Execution Make Better Text-to-SQL Agents
Quick Look
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces