Channels - Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring :: FRELIP Discovery

Similar Items: Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

Quick Look
Robust and Fast Training via Per-Sample Clipping
Quick Look
Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime
Quick Look
PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation
Quick Look
A decoupled diffusion planner that adapts to changing cost limits by using cost-conditioned generation for safety and reward gradients for performance
Quick Look
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels
Quick Look
Standing on the Shoulders of Giants: Stabilized Knowledge Distillation for Cross--Language Code Clone Detection
Quick Look
Exploration Hacking: Can LLMs Learn to Resist RL Training?
Quick Look
Trust, but Verify: Peeling Low-Bit Transformer Networks for Training Monitoring
Quick Look
Quantum Interval Bound Propagation for Certified Training of Quantum Neural Networks
Quick Look
Globally Optimal Training of Spiking Neural Networks via Parameter Reconstruction
Quick Look
Enhanced 3D Brain Tumor Segmentation Using Assorted Precision Training
Quick Look
Multi-fidelity surrogates for mechanics of composites: from co-kriging to multi-fidelity neural networks
Quick Look
Transformed Latent Variable Multi-Output Gaussian Processes
Quick Look
Unified Framework of Distributional Regret in Multi-Armed Bandits and Reinforcement Learning
Quick Look
NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search
Quick Look
Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data
Quick Look
Continual Knowledge Updating in LLM Systems: Learning Through Multi-Timescale Memory Dynamics
Quick Look
How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation
Quick Look
PROMISE-AD: Progression-aware Multi-horizon Survival Estimation for Alzheimer's Disease Progression and Dynamic Tracking
Quick Look
FiLMMeD: Feature-wise Linear Modulation for Cross-Problem Multi-Depot Vehicle Routing
Quick Look
Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures
Quick Look
MSMixer: Learned Multi-Scale Temporal Mixing with Complementary Linear Shortcut for Long-Term Time Series Forecasting
Quick Look
Observable Performance Does Not Fully Reflect System Organization: A Multi-Level Analysis of Gait Dynamics Under Occlusal Constraint
Quick Look
Early Detection of Water Stress by Plant Electrophysiology: Machine Learning for Irrigation Management