Channels - Gaming the Metric, Not the Harm: Certifying Safety Audits against Strategic Platform Manipulation :: FRELIP Discovery

Similar Items: Gaming the Metric, Not the Harm: Certifying Safety Audits against Strategic Platform Manipulation

Quick Look
Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks
Quick Look
Graph Representation Learning Augmented Model Manipulation on Federated Fine-Tuning of LLMs
Quick Look
Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis
Quick Look
AutoSOUP: Safety-Oriented Unit Proof Generation for Component-level Memory-Safety Verification
Quick Look
An Evaluation of Chat Safety Moderations in Roblox
Quick Look
Combating Organized Platform Abuse: Amplifying Weak Risk Signals with Structural Information
Quick Look
Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense
Quick Look
AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use
Quick Look
ARGUS: Defending LLM Agents Against Context-Aware Prompt Injection
Quick Look
SoK: Robustness in Large Language Models against Jailbreak Attacks
Quick Look
Exposing LLM Safety Gaps Through Mathematical Encoding:New Attacks and Systematic Analysis
Quick Look
An Automated Framework for Cybersecurity Policy Compliance Assessment Against Security Control Standards
Quick Look
You Snooze, You Lose: Automatic Safety Alignment Restoration through Neural Weight Translation
Quick Look
Noisy Networks, Nosy Neighbors: Simple Privacy Attacks Against Residential Wireless Traffic
Quick Look
MAGE: Safeguarding LLM Agents against Long-Horizon Threats via Shadow Memory
Quick Look
Cryptographic Registry Provenance: Structural Defense Against Dependency Confusion in AI Package Ecosystems
Quick Look
Post-Quantum Cryptography Migration in Australian Real-Time Payment Infrastructure: A Monte Carlo Simulation Study of the New Payments Platform
Quick Look
ML-Bench&Guard: Policy-Grounded Multilingual Safety Benchmark and Guardrail for Large Language Models
Quick Look
Pop Quiz Attack: Black-box Membership Inference Attacks Against Large Language Models
Quick Look
GuardSec: A Multi-Modal Web Platform for Real-Time Digital Fraud Detection, Entity Verification, and Connection Security Analysis in the African Context
Quick Look
TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning
Quick Look
Static Attribution of Android Residential Proxy Malware Using Graph Kernels
Quick Look
REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)
Quick Look
Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors