Channels - Guaranteed Jailbreaking Defense via Disrupt-and-Rectify Smoothing :: FRELIP Discovery

Similar Items: Guaranteed Jailbreaking Defense via Disrupt-and-Rectify Smoothing

Quick Look
TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning
Quick Look
ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming
Quick Look
Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization
Quick Look
Re-Triggering Safeguards within LLMs for Jailbreak Detection
Quick Look
SoK: Robustness in Large Language Models against Jailbreak Attacks
Quick Look
LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments
Quick Look
On the (In-)Security of the Shuffling Defense in the Transformer Secure Inference
Quick Look
AdaBFL: Multi-Layer Defensive Adaptive Aggregation for Bzantine-Robust Federated Learning
Quick Look
Cryptographic Registry Provenance: Structural Defense Against Dependency Confusion in AI Package Ecosystems
Quick Look
Acceptance Cards:A Four-Diagnostic Standard for Safe Fine-Tuning Defense Claims
Quick Look
Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense
Quick Look
Security Attack and Defense Strategies for Autonomous Agent Frameworks: A Layered Review with OpenClaw as a Case Study
Quick Look
Detecting Adversarial Data via Provable Adversarial Noise Amplification
Quick Look
Data anonymization in the presence of outliers via invariant coordinate selection
Quick Look
Backdoor Mitigation in Object Detection via Adversarial Fine-Tuning
Quick Look
MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks
Quick Look
Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis
Quick Look
Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks
Quick Look
PACZero: PAC-Private Fine-Tuning of Language Models via Sign Quantization
Quick Look
SCRIBE: Practical Static Binary Patching via Binary-Aware Recompilation of Decompiled Code
Quick Look
Analyzing Unsolicited Internet Traffic: Measuring IoT Security Threats via Network Telescopes
Quick Look
MAGE: Safeguarding LLM Agents against Long-Horizon Threats via Shadow Memory
Quick Look
AFL-ICP: Enhancing Industrial Control Protocol Reliability via Specification-Guided Fuzzing
Quick Look
Generate "Normal", Edit Poisoned: Branding Injection via Hint Embedding in Image Editing