Channels - Question Difficulty Estimation for Large Language Models via Answer Plausibility Scoring :: FRELIP Discovery

Similar Items: Question Difficulty Estimation for Large Language Models via Answer Plausibility Scoring

Quick Look
Context Convergence Improves Answering Inferential Questions
Quick Look
ASTRA-QA: A Benchmark for Abstract Question Answering over Documents
Quick Look
Reliable Answers for Recurring Questions: Boosting Text-to-SQL Accuracy with Template Constrained Decoding
Quick Look
DoGMaTiQ: Automated Generation of Question-and-Answer Nuggets for Report Evaluation
Quick Look
MedHopQA: A Disease-Centered Multi-Hop Reasoning Benchmark and Evaluation Framework for LLM-Based Biomedical Question Answering
Quick Look
Overview of the MedHopQA track at BioCreative IX: track description, participation and evaluation of systems for multi-hop medical question answering
Quick Look
DCGL: Dual-Channel Graph Learning with Large Language Models for Knowledge-Aware Recommendation
Quick Look
RAG-Enhanced Large Language Models for Dynamic Content Expiration Prediction in Web Search
Quick Look
Task-Aware Automated User Profile Generation for Recommendation Simulation Using Large Language Models
Quick Look
RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation
Quick Look
Large Language Models for Causal Relations Extraction in Social Media: A Validation Framework for Disaster Intelligence
Quick Look
VERDI: Single-Call Confidence Estimation for Verification-Based LLM Judges via Decomposed Inference
Quick Look
Hypencoder Revisited: Reproducibility and Analysis of Non-Linear Scoring for First-Stage Retrieval
Quick Look
When to Retrieve During Reasoning: Adaptive Retrieval for Large Reasoning Models
Quick Look
Loom: Hybrid Retrieval-Scoring Outfit Recommendation with Semantic Material Compatibility and Occasion-Aware Embedding Priors
Quick Look
DiffRetriever: Parallel Representative Tokens for Retrieval with Diffusion Language Models
Quick Look
RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners
Quick Look
Bridging Passive and Active: Enhancing Conversation Starter Recommendation via Active Expression Modeling
Quick Look
Personalized w-Event Privacy for Infinite Stream Estimation
Quick Look
A General Framework for Multimodal LLM-Based Multimedia Understanding in Large-Scale Recommendation Systems
Quick Look
MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal
Quick Look
Multi-Axis Speech Similarity via Factor-Partitioned Embeddings
Quick Look
Urban-ImageNet: A Large-Scale Multi-Modal Dataset and Evaluation Framework for Urban Space Perception
Quick Look
Post-hoc Provider Fairness Adaptation via Hierarchical Exposure Alignment