Channels - ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming :: FRELIP Discovery

Similar Items: ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming

Quick Look
Autonomous Adversary: Red-Teaming in the age of LLM
Quick Look
Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization
Quick Look
Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours
Quick Look
TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning
Quick Look
SoK: Robustness in Large Language Models against Jailbreak Attacks
Quick Look
FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption
Quick Look
STARE: Step-wise Temporal Alignment and Red-teaming Engine for Multi-modal Toxicity Attack
Quick Look
FunFuzz: An LLM-Powered Evolutionary Fuzzing Framework
Quick Look
Tracking Conversations: Measuring Content and Identity Exposure on AI Chatbots
Quick Look
Detecting Adversarial Data via Provable Adversarial Noise Amplification
Quick Look
Data anonymization in the presence of outliers via invariant coordinate selection
Quick Look
Backdoor Mitigation in Object Detection via Adversarial Fine-Tuning
Quick Look
MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks
Quick Look
Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis
Quick Look
Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks
Quick Look
PACZero: PAC-Private Fine-Tuning of Language Models via Sign Quantization
Quick Look
SCRIBE: Practical Static Binary Patching via Binary-Aware Recompilation of Decompiled Code
Quick Look
Analyzing Unsolicited Internet Traffic: Measuring IoT Security Threats via Network Telescopes
Quick Look
MAGE: Safeguarding LLM Agents against Long-Horizon Threats via Shadow Memory
Quick Look
AFL-ICP: Enhancing Industrial Control Protocol Reliability via Specification-Guided Fuzzing
Quick Look
Post-Quantum Cryptography Migration in Australian Real-Time Payment Infrastructure: A Monte Carlo Simulation Study of the New Payments Platform
Quick Look
PragLocker: Protecting Agent Intellectual Property in Untrusted Deployments via Non-Portable Prompts
Quick Look
ClawGuard: Out-of-Band Detection of LLM Agent Workflow Hijacking via EM Side Channel
Quick Look
Constraining Host-Level Abuse in Self-Hosted Computer-Use Agents via TEE-Backed Isolation