Channels - Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks :: FRELIP Discovery

Similar Items: Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks

Quick Look
Backdoor Mitigation in Object Detection via Adversarial Fine-Tuning
Quick Look
PACZero: PAC-Private Fine-Tuning of Language Models via Sign Quantization
Quick Look
Graph Representation Learning Augmented Model Manipulation on Federated Fine-Tuning of LLMs
Quick Look
Fine-Tuning Small Language Models for Solution-Oriented Windows Event Log Analysis
Quick Look
ARGUS: Defending LLM Agents Against Context-Aware Prompt Injection
Quick Look
Gaming the Metric, Not the Harm: Certifying Safety Audits against Strategic Platform Manipulation
Quick Look
FedAttr: Towards Privacy-preserving Client-Level Attribution in Federated LLM Fine-tuning
Quick Look
Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors
Quick Look
SkillScope: Toward Fine-Grained Least-Privilege Enforcement for Agent Skills
Quick Look
An Evaluation of Chat Safety Moderations in Roblox
Quick Look
AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use
Quick Look
Exposing LLM Safety Gaps Through Mathematical Encoding:New Attacks and Systematic Analysis
Quick Look
You Snooze, You Lose: Automatic Safety Alignment Restoration through Neural Weight Translation
Quick Look
ML-Bench&Guard: Policy-Grounded Multilingual Safety Benchmark and Guardrail for Large Language Models
Quick Look
Detecting Adversarial Data via Provable Adversarial Noise Amplification
Quick Look
Data anonymization in the presence of outliers via invariant coordinate selection
Quick Look
MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks
Quick Look
ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming
Quick Look
Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis
Quick Look
SCRIBE: Practical Static Binary Patching via Binary-Aware Recompilation of Decompiled Code
Quick Look
Analyzing Unsolicited Internet Traffic: Measuring IoT Security Threats via Network Telescopes
Quick Look
MAGE: Safeguarding LLM Agents against Long-Horizon Threats via Shadow Memory
Quick Look
AFL-ICP: Enhancing Industrial Control Protocol Reliability via Specification-Guided Fuzzing
Quick Look
Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization