Channels - Unified Framework of Distributional Regret in Multi-Armed Bandits and Reinforcement Learning :: FRELIP Discovery

Similar Items: Unified Framework of Distributional Regret in Multi-Armed Bandits and Reinforcement Learning

Quick Look
A Unified Framework of Hyperbolic Graph Representation Learning Methods
Quick Look
UniSD: Towards a Unified Self-Distillation Framework for Large Language Models
Quick Look
Interpreting Reinforcement Learning Agents with Susceptibilities
Quick Look
Reinforcement Learning with Markov Risk Measures and Multipattern Risk Approximation
Quick Look
Reinforcement Learning for Exponential Utility: Algorithms and Convergence in Discounted MDPs
Quick Look
Federated Reinforcement Learning for Efficient Mobile Crowdsensing under Incomplete Information
Quick Look
Augmented Lagrangian Multiplier Network for State-wise Safety in Reinforcement Learning
Quick Look
Adaptive Policy Selection and Fine-Tuning under Interaction Budgets for Offline-to-Online Reinforcement Learning
Quick Look
STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation
Quick Look
Continual Knowledge Updating in LLM Systems: Learning Through Multi-Timescale Memory Dynamics
Quick Look
MSMixer: Learned Multi-Scale Temporal Mixing with Complementary Linear Shortcut for Long-Term Time Series Forecasting
Quick Look
Spectral Model eXplainer: a chemically-grounded explainability framework for spectral-based machine learning models
Quick Look
Multi-fidelity surrogates for mechanics of composites: from co-kriging to multi-fidelity neural networks
Quick Look
Semiparametric Efficient Test for Interpretable Distributional Treatment Effects
Quick Look
On Computing Total Variation Distance Between Mixtures of Product Distributions
Quick Look
Transformed Latent Variable Multi-Output Gaussian Processes
Quick Look
Meritocratic Fairness in Budgeted Combinatorial Multi-armed Bandits via Shapley Values
Quick Look
Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring
Quick Look
NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search
Quick Look
Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data
Quick Look
How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation
Quick Look
PROMISE-AD: Progression-aware Multi-horizon Survival Estimation for Alzheimer's Disease Progression and Dynamic Tracking
Quick Look
FiLMMeD: Feature-wise Linear Modulation for Cross-Problem Multi-Depot Vehicle Routing
Quick Look
Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures