Channels - Mitigating Misalignment Contagion by Steering with Implicit Traits :: FRELIP Discovery

Similar Items: Mitigating Misalignment Contagion by Steering with Implicit Traits

Quick Look
Misaligned by Reward: Socially Undesirable Preferences in LLMs
Quick Look
Conceptors for Semantic Steering
Quick Look
Implicit Representations of Grammaticality in Language Models
Quick Look
Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients
Quick Look
Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors
Quick Look
Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
Quick Look
Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health
Quick Look
Geometry-Calibrated Conformal Abstention for Language Models
Quick Look
From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction
Quick Look
MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
Quick Look
DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models
Quick Look
Can AI Be a Good Peer Reviewer? A Survey of Peer Review Process, Evaluation, and the Future
Quick Look
Beyond Semantics: Measuring Fine-Grained Emotion Preservation in Small Language Model-Based Machine Translation
Quick Look
Ease of dependency distance minimization in star-like structures
Quick Look
Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
Quick Look
Universal statistical laws governing culinary design
Quick Look
Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning
Quick Look
Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling
Quick Look
Stable Behavior, Limited Variation: Persona Validity in LLM Agents for Urban Sentiment Perception
Quick Look
Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI
Quick Look
On the Proper Treatment of Units in Surprisal Theory
Quick Look
Revisiting Semantic Role Labeling: Efficient Structured Inference with Dependency-Informed Analysis
Quick Look
A multilingual hallucination benchmark: MultiWikiQHalluA
Quick Look
Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation