Channels - Misaligned by Reward: Socially Undesirable Preferences in LLMs :: FRELIP Discovery

Similar Items: Misaligned by Reward: Socially Undesirable Preferences in LLMs

Quick Look
Mitigating Misalignment Contagion by Steering with Implicit Traits
Quick Look
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
Quick Look
Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards
Quick Look
Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs
Quick Look
Beyond Confidence: Rethinking Self-Assessments for Performance Prediction in LLMs
Quick Look
SERE: Structural Example Retrieval for Enhancing LLMs in Event Causality Identification
Quick Look
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
Quick Look
mdok-style at SemEval-2026 Task 10: Finetuning LLMs for Conspiracy Detection
Quick Look
mdok-style at SemEval-2026 Task 9: Finetuning LLMs for Multilingual Polarization Detection
Quick Look
When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models
Quick Look
Beyond "I cannot fulfill this request": Alleviating Rigid Rejection in LLMs via Label Enhancement
Quick Look
Uncertainty-Aware Structured Data Extraction from Full CMR Reports via Distilled LLMs
Quick Look
Automated Clinical Report Generation for Remote Cognitive Remediation: Comparing Knowledge-Engineered Templates and LLMs in Low-Resource Settings
Quick Look
SCENE: Recognizing Social Norms and Sanctioning in Group Chats
Quick Look
ControBench: An Interaction-Aware Benchmark for Controversial Discourse Analysis on Social Networks
Quick Look
Directed Social Regard: Surfacing Targeted Advocacy, Opposition, Aid, Harms, and Victimization in Online Media
Quick Look
Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Geometry-Calibrated Conformal Abstention for Language Models
Quick Look
From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction
Quick Look
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
Quick Look
DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models
Quick Look
Can AI Be a Good Peer Reviewer? A Survey of Peer Review Process, Evaluation, and the Future
Quick Look
Beyond Semantics: Measuring Fine-Grained Emotion Preservation in Small Language Model-Based Machine Translation