Channels - SoK: Robustness in Large Language Models against Jailbreak Attacks :: FRELIP Discovery

Similar Items: SoK: Robustness in Large Language Models against Jailbreak Attacks

Quick Look
Pop Quiz Attack: Black-box Membership Inference Attacks Against Large Language Models
Quick Look
TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning
Quick Look
Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization
Quick Look
Guaranteed Jailbreaking Defense via Disrupt-and-Rectify Smoothing
Quick Look
Re-Triggering Safeguards within LLMs for Jailbreak Detection
Quick Look
ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming
Quick Look
LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments
Quick Look
Noisy Networks, Nosy Neighbors: Simple Privacy Attacks Against Residential Wireless Traffic
Quick Look
Cross-Modal Backdoors in Multimodal Large Language Models
Quick Look
Attention Is Where You Attack
Quick Look
VOW: Verifiable and Oblivious Watermark Detection for Large Language Models
Quick Look
Vaporizer: Breaking Watermarking Schemes for Large Language Model Outputs
Quick Look
Internet of Things Security: A Survey on Common Attacks
Quick Look
GPUBreach: Privilege Escalation Attacks on GPUs using Rowhammer
Quick Look
LoopTrap: Termination Poisoning Attacks on LLM Agents
Quick Look
VertMark: A Unified Training-Free Robust Watermarking Framework for Vertical Domain Pre-trained Language Models
Quick Look
ML-Bench&Guard: Policy-Grounded Multilingual Safety Benchmark and Guardrail for Large Language Models
Quick Look
When Alignment Isn't Enough: Response-Path Attacks on LLM Agents
Quick Look
Firmware Distribution as Attack Surface: A Security Study of ASIC Cryptocurrency Miners
Quick Look
Misrouter: Exploiting Routing Mechanisms for Input-Only Attacks on Mixture-of-Experts LLMs
Quick Look
CyBiasBench: Benchmarking Bias in LLM Agents for Cyber-Attack Scenarios
Quick Look
Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection
Quick Look
Exposing LLM Safety Gaps Through Mathematical Encoding:New Attacks and Systematic Analysis
Quick Look
MATRA: Modeling the Attack Surface of Agentic AI Systems -- OpenClaw Case Study