Channels - MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following :: FRELIP Discovery

Similar Items: MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following

Quick Look
ControBench: An Interaction-Aware Benchmark for Controversial Discourse Analysis on Social Networks
Quick Look
CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers
Quick Look
Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
Quick Look
TriBench-Ko: Evaluating LLM Risks in Judicial Workflows
Quick Look
A multilingual hallucination benchmark: MultiWikiQHalluA
Quick Look
SC-Taxo: Hierarchical Taxonomy Generation under Semantic Consistency Constraints using Large Language Models
Quick Look
FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
Quick Look
Logical Consistency as a Bridge: Improving LLM Hallucination Detection via Label Constraint Modeling between Responses and Self-Judgments
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs
Quick Look
MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge
Quick Look
CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing
Quick Look
Benchmarking Parameter-Efficient Fine-Tuning of Large Language Models for Low-Resource Tajik Text Generation with the Tajik Web Corpus
Quick Look
When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models
Quick Look
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
Quick Look
Reinforcement Learning for Compositional Generalization with Outcome-Level Optimization
Quick Look
Synthetic Users, Real Differences: an Evaluation Framework for User Simulation in Multi-Turn Conversations
Quick Look
Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers
Quick Look
Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration
Quick Look
MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
Quick Look
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
Quick Look
Rose-SQL: Role-State Evolution Guided Structured Reasoning for Multi-Turn Text-to-SQL
Quick Look
Beyond Semantics: An Evidential Reasoning-Aware Multi-View Learning Framework for Trustworthy Mental Health Prediction
Quick Look
Mapping Discourse Reframing: A Multi-Layer Network Approach to Italian HPV Vaccine Discourse on X (2010-2024)