Channels - Temper and Tilt Lead to SLOP: Reward Hacking Mitigation with Inference-Time Alignment :: FRELIP Discovery

Similar Items: Temper and Tilt Lead to SLOP: Reward Hacking Mitigation with Inference-Time Alignment

Quick Look
Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization
Quick Look
Misaligned by Reward: Socially Undesirable Preferences in LLMs
Quick Look
Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards
Quick Look
PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization
Quick Look
CA-SQL: Complexity-Aware Inference Time Reasoning for Text-to-SQL via Exploration and Compute Budget Allocation
Quick Look
Why Expert Alignment Is Hard: Evidence from Subjective Evaluation
Quick Look
Mitigating Misalignment Contagion by Steering with Implicit Traits
Quick Look
Training-Free Cultural Alignment of Large Language Models via Persona Disagreement
Quick Look
Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors
Quick Look
Task Vector Geometry Underlies Dual Modes of Task Inference in Transformers
Quick Look
Edit-level Majority Voting Mitigates Over-Correction in LLM-based Grammatical Error Correction
Quick Look
Revisiting Semantic Role Labeling: Efficient Structured Inference with Dependency-Informed Analysis
Quick Look
Litespark Inference on Consumer CPUs: Custom SIMD Kernels for Ternary Neural Networks
Quick Look
Locale-Conditioned Few-Shot Prompting Mitigates Demonstration Regurgitation in On-Device PII Substitution with Small Language Models
Quick Look
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
Quick Look
Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents?
Quick Look
Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals
Quick Look
Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Geometry-Calibrated Conformal Abstention for Language Models
Quick Look
From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction
Quick Look
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
Quick Look
DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models
Quick Look
Can AI Be a Good Peer Reviewer? A Survey of Peer Review Process, Evaluation, and the Future