Channels - Re-Triggering Safeguards within LLMs for Jailbreak Detection :: FRELIP Discovery

Similar Items: Re-Triggering Safeguards within LLMs for Jailbreak Detection

Quick Look
Guaranteed Jailbreaking Defense via Disrupt-and-Rectify Smoothing
Quick Look
ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming
Quick Look
SoK: Robustness in Large Language Models against Jailbreak Attacks
Quick Look
LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments
Quick Look
Trident: Improving Malware Detection with LLMs and Behavioral Features
Quick Look
GLiGuard: Schema-Conditioned Classification for LLM Safeguard
Quick Look
Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization
Quick Look
TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning
Quick Look
MAGE: Safeguarding LLM Agents against Long-Horizon Threats via Shadow Memory
Quick Look
On the Privacy of LLMs: An Ablation Study
Quick Look
LLMs for Secure Hardware Design and Related Problems: Opportunities and Challenges
Quick Look
Misrouter: Exploiting Routing Mechanisms for Input-Only Attacks on Mixture-of-Experts LLMs
Quick Look
Graph Representation Learning Augmented Model Manipulation on Federated Fine-Tuning of LLMs
Quick Look
Mapping Partisan Fault Lines Within DAOs
Quick Look
REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)
Quick Look
Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense
Quick Look
Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection
Quick Look
Evaluating Tabular Representation Learning for Network Intrusion Detection
Quick Look
VOW: Verifiable and Oblivious Watermark Detection for Large Language Models
Quick Look
Detecting Adversarial Data via Provable Adversarial Noise Amplification
Quick Look
CleanBase: Detecting Malicious Documents in RAG Knowledge Databases
Quick Look
Assessing Generalisation Capability of Machine Learning Models for Intrusion Detection
Quick Look
Backdoor Mitigation in Object Detection via Adversarial Fine-Tuning
Quick Look
ObfAx: Obfuscation and IP Piracy Detection in Approximate Circuits