Channels - When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models :: FRELIP Discovery

Similar Items: When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models

Quick Look
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
Quick Look
When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition
Quick Look
Misaligned by Reward: Socially Undesirable Preferences in LLMs
Quick Look
FlexSQL: Flexible Exploration and Execution Make Better Text-to-SQL Agents
Quick Look
Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs
Quick Look
Beyond Confidence: Rethinking Self-Assessments for Performance Prediction in LLMs
Quick Look
Step Rejection Fine-Tuning: A Practical Distillation Recipe
Quick Look
SERE: Structural Example Retrieval for Enhancing LLMs in Event Causality Identification
Quick Look
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
Quick Look
Self-Attention as Transport: Limits of Symmetric Spectral Diagnostics
Quick Look
mdok-style at SemEval-2026 Task 10: Finetuning LLMs for Conspiracy Detection
Quick Look
mdok-style at SemEval-2026 Task 9: Finetuning LLMs for Multilingual Polarization Detection
Quick Look
Beyond "I cannot fulfill this request": Alleviating Rigid Rejection in LLMs via Label Enhancement
Quick Look
Uncertainty-Aware Structured Data Extraction from Full CMR Reports via Distilled LLMs
Quick Look
Trajectory as the Teacher: Few-Step Discrete Flow Matching via Energy-Navigated Distillation
Quick Look
STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?
Quick Look
Automated Clinical Report Generation for Remote Cognitive Remediation: Comparing Knowledge-Engineered Templates and LLMs in Low-Resource Settings
Quick Look
Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents?
Quick Look
MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following
Quick Look
Implicit Representations of Grammaticality in Language Models
Quick Look
Geometry-Calibrated Conformal Abstention for Language Models
Quick Look
Adapting Large Language Models to a Low-Resource Agglutinative Language: A Comparative Study of LoRA and QLoRA for Bashkir
Quick Look
Unintended Negative Impacts of Promotional Language in Patent Evaluation
Quick Look
The Frequency Confound in Language-Model Surprisal and Metaphor Novelty