Channels - Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals

Similar Items: Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals

Quick Look
Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge
Quick Look
Parser agreement and disagreement in L2 Korean UD: Implications for human-in-the-loop annotation
Quick Look
Training-Free Cultural Alignment of Large Language Models via Persona Disagreement
Quick Look
MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following
Quick Look
The Algorithmic Caricature: Auditing LLM-Generated Political Discourse Across Crisis Events
Quick Look
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
Quick Look
Segmenting Human-LLM Co-authored Text via Change Point Detection
Quick Look
ReLay: Personalized LLM-Generated Plain-Language Summaries for Better Understanding, but at What Cost?
Quick Look
Patch-Effect Graph Kernels for LLM Interpretability
Quick Look
How Value Induction Reshapes LLM Behaviour
Quick Look
Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers
Quick Look
TriBench-Ko: Evaluating LLM Risks in Judicial Workflows
Quick Look
RUBEN: Rule-Based Explanations for Retrieval-Augmented LLM Systems
Quick Look
The Pinocchio Dimension: Phenomenality of Experience as the Primary Axis of LLM Psychometric Differences
Quick Look
STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?
Quick Look
MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
Quick Look
Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
Quick Look
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
Quick Look
FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
Quick Look
Rethinking Local Learning: A Cheaper and Faster Recipe for LLM Post-Training
Quick Look
Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents
Quick Look
Detecting Hallucinations in Large Language Models via Internal Attention Divergence Signals
Quick Look
Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR
Quick Look
Stable Behavior, Limited Variation: Persona Validity in LLM Agents for Urban Sentiment Perception