Channels - MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge :: FRELIP Discovery

Similar Items: MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge

Quick Look
SemEval-2026 Task 7: Everyday Knowledge Across Diverse Languages and Cultures
Quick Look
mdok-style at SemEval-2026 Task 10: Finetuning LLMs for Conspiracy Detection
Quick Look
mdok-style at SemEval-2026 Task 9: Finetuning LLMs for Multilingual Polarization Detection
Quick Look
UFAL-CUNI at SemEval-2026 Task 11: An Efficient Modular Neuro-symbolic Method for Syllogistic Reasoning
Quick Look
A multilingual hallucination benchmark: MultiWikiQHalluA
Quick Look
Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs
Quick Look
Patch-Effect Graph Kernels for LLM Interpretability
Quick Look
How Value Induction Reshapes LLM Behaviour
Quick Look
ControBench: An Interaction-Aware Benchmark for Controversial Discourse Analysis on Social Networks
Quick Look
CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers
Quick Look
TriBench-Ko: Evaluating LLM Risks in Judicial Workflows
Quick Look
MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following
Quick Look
The Pinocchio Dimension: Phenomenality of Experience as the Primary Axis of LLM Psychometric Differences
Quick Look
STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?
Quick Look
MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
Quick Look
CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing
Quick Look
Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
Quick Look
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
Quick Look
FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
Quick Look
Segmenting Human-LLM Co-authored Text via Change Point Detection
Quick Look
Rethinking Local Learning: A Cheaper and Faster Recipe for LLM Post-Training
Quick Look
Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents
Quick Look
Stable Behavior, Limited Variation: Persona Validity in LLM Agents for Urban Sentiment Perception
Quick Look
EQUITRIAGE: A Fairness Audit of Gender Bias in LLM-Based Emergency Department Triage