Channels - The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies :: FRELIP Discovery

Similar Items: The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies

Quick Look
The Frequency Confound in Language-Model Surprisal and Metaphor Novelty
Quick Look
Accurate and Efficient Statistical Testing for Word Semantic Breadth
Quick Look
Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Geometry-Calibrated Conformal Abstention for Language Models
Quick Look
From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction
Quick Look
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
Quick Look
DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models
Quick Look
Can AI Be a Good Peer Reviewer? A Survey of Peer Review Process, Evaluation, and the Future
Quick Look
Beyond Semantics: Measuring Fine-Grained Emotion Preservation in Small Language Model-Based Machine Translation
Quick Look
Ease of dependency distance minimization in star-like structures
Quick Look
Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
Quick Look
Universal statistical laws governing culinary design
Quick Look
Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning
Quick Look
Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling
Quick Look
Stable Behavior, Limited Variation: Persona Validity in LLM Agents for Urban Sentiment Perception
Quick Look
Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI
Quick Look
On the Proper Treatment of Units in Surprisal Theory
Quick Look
Revisiting Semantic Role Labeling: Efficient Structured Inference with Dependency-Informed Analysis
Quick Look
A multilingual hallucination benchmark: MultiWikiQHalluA
Quick Look
Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation
Quick Look
Shadow-Loom: Causal Reasoning over Graphical World Model of Narratives
Quick Look
Accurate Legal Reasoning at Scale: Neuro-Symbolic Offloading and Structural Auditability for Robust Legal Adjudication
Quick Look
Dependency Parsing Across the Resource Spectrum: Evaluating Architectures on High and Low-Resource Languages