Channels - Synthetic Users, Real Differences: an Evaluation Framework for User Simulation in Multi-Turn Conversations :: FRELIP Discovery

Similar Items: Synthetic Users, Real Differences: an Evaluation Framework for User Simulation in Multi-Turn Conversations

Quick Look
Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors
Quick Look
Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
Quick Look
Rose-SQL: Role-State Evolution Guided Structured Reasoning for Multi-Turn Text-to-SQL
Quick Look
Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers
Quick Look
FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
Quick Look
Towards Emotion Consistency Analysis of Large Language Models in Emotional Conversational Contexts
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Beyond Semantics: An Evidential Reasoning-Aware Multi-View Learning Framework for Trustworthy Mental Health Prediction
Quick Look
Fuzzy Fingerprinting Encoder Pre-trained Language Models for Emotion Recognition in Conversations: Human Assessment and Validity Study
Quick Look
MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following
Quick Look
Foundation Models to Unlock Real-World Evidence from Nationwide Medical Claims
Quick Look
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
Quick Look
CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing
Quick Look
The Pinocchio Dimension: Phenomenality of Experience as the Primary Axis of LLM Psychometric Differences
Quick Look
A multilingual hallucination benchmark: MultiWikiQHalluA
Quick Look
MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
Quick Look
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
Quick Look
PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization
Quick Look
Unintended Negative Impacts of Promotional Language in Patent Evaluation
Quick Look
Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs
Quick Look
TriBench-Ko: Evaluating LLM Risks in Judicial Workflows
Quick Look
Why Expert Alignment Is Hard: Evidence from Subjective Evaluation
Quick Look
Mapping Discourse Reframing: A Multi-Layer Network Approach to Italian HPV Vaccine Discourse on X (2010-2024)
Quick Look
A11y-Compressor: A Framework for Enhancing the Efficiency of GUI Agent Observations through Visual Context Reconstruction and Redundancy Reduction