Channels - ML-Bench&Guard: Policy-Grounded Multilingual Safety Benchmark and Guardrail for Large Language Models :: FRELIP Discovery

Similar Items: ML-Bench&Guard: Policy-Grounded Multilingual Safety Benchmark and Guardrail for Large Language Models

Quick Look
CyBiasBench: Benchmarking Bias in LLM Agents for Cyber-Attack Scenarios
Quick Look
GLiGuard: Schema-Conditioned Classification for LLM Safeguard
Quick Look
MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents
Quick Look
SST-Guard: Detecting and Characterizing Server-Side Google Analytics in the Wild
Quick Look
KingsGuard: Enclave Data Protection Under Real-World TEE Vulnerabilities
Quick Look
ClawGuard: Out-of-Band Detection of LLM Agent Workflow Hijacking via EM Side Channel
Quick Look
GuardSec: A Multi-Modal Web Platform for Real-Time Digital Fraud Detection, Entity Verification, and Connection Security Analysis in the African Context
Quick Look
SecGoal: A Benchmark for Security Goal Extraction and Formalization from Protocol Documents
Quick Look
An Evaluation of Chat Safety Moderations in Roblox
Quick Look
REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)
Quick Look
Repurposing Image Diffusion Models for Adversarial Synthetic Structured Data: A Case Study of Ground Truth Drift
Quick Look
Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks
Quick Look
Cross-Modal Backdoors in Multimodal Large Language Models
Quick Look
AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use
Quick Look
Gaming the Metric, Not the Harm: Certifying Safety Audits against Strategic Platform Manipulation
Quick Look
VOW: Verifiable and Oblivious Watermark Detection for Large Language Models
Quick Look
Vaporizer: Breaking Watermarking Schemes for Large Language Model Outputs
Quick Look
Exposing LLM Safety Gaps Through Mathematical Encoding:New Attacks and Systematic Analysis
Quick Look
SoK: Robustness in Large Language Models against Jailbreak Attacks
Quick Look
You Snooze, You Lose: Automatic Safety Alignment Restoration through Neural Weight Translation
Quick Look
An Automated Framework for Cybersecurity Policy Compliance Assessment Against Security Control Standards
Quick Look
Pop Quiz Attack: Black-box Membership Inference Attacks Against Large Language Models
Quick Look
Static Attribution of Android Residential Proxy Malware Using Graph Kernels
Quick Look
Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors