Channels - Exploration Hacking: Can LLMs Learn to Resist RL Training? :: FRELIP Discovery

Similar Items: Exploration Hacking: Can LLMs Learn to Resist RL Training?

Quick Look
Enhancing RL Generalizability in Robotics through SHAP Analysis of Algorithms and Hyperparameters
Quick Look
On the Hardness of Junking LLMs
Quick Look
RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
Quick Look
Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime
Quick Look
AssayBench: An Assay-Level Virtual Cell Benchmark for LLMs and Agents
Quick Look
V4FinBench: Benchmarking Tabular Foundation Models, LLMs, and Standard Methods on Corporate Bankruptcy Prediction
Quick Look
Robust and Fast Training via Per-Sample Clipping
Quick Look
Trust, but Verify: Peeling Low-Bit Transformer Networks for Training Monitoring
Quick Look
Quantum Interval Bound Propagation for Certified Training of Quantum Neural Networks
Quick Look
Globally Optimal Training of Spiking Neural Networks via Parameter Reconstruction
Quick Look
Global Optimality for Constrained Exploration via Penalty Regularization
Quick Look
Enhanced 3D Brain Tumor Segmentation Using Assorted Precision Training
Quick Look
Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring
Quick Look
Transcoda: End-to-End Zero-Shot Optical Music Recognition via Data-Centric Synthetic Training
Quick Look
NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search
Quick Look
Clin-JEPA: A Multi-Phase Co-Training Framework for Joint-Embedding Predictive Pretraining on EHR Patient Trajectories
Quick Look
Interpreting Reinforcement Learning Agents with Susceptibilities
Quick Look
Aitchison Embeddings for Learning Compositional Graph Representations
Quick Look
Deep Kernel Learning for Stratifying Glaucoma Trajectories
Quick Look
Memory-Efficient Continual Learning with CLIP Models
Quick Look
PHALAR: Phasors for Learned Musical Audio Representations
Quick Look
What Matters in Practical Learned Image Compression
Quick Look
Mapping the Phase Diagram of the Vicsek Model with Machine Learning
Quick Look
Equivariant Reinforcement Learning for Clifford Quantum Circuit Synthesis