Channels - Self-Play Enhancement via Advantage-Weighted Refinement in Online Federated LLM Fine-Tuning with Real-Time Feedback :: FRELIP Discovery

Similar Items: Self-Play Enhancement via Advantage-Weighted Refinement in Online Federated LLM Fine-Tuning with Real-Time Feedback

Quick Look
Adaptive Policy Selection and Fine-Tuning under Interaction Budgets for Offline-to-Online Reinforcement Learning
Quick Look
Label-Efficient School Detection from Aerial Imagery via Weakly Supervised Pretraining and Fine-Tuning
Quick Look
Exact ReLU realization of tensor-product refinement iterates
Quick Look
PianoCoRe: Combined and Refined Piano MIDI Dataset
Quick Look
Neural Weight Norm = Kolmogorov Complexity
Quick Look
Fine-Grained Graph Generation through Latent Mixture Scheduling
Quick Look
Generating Statistical Charts with Validation-Driven LLM Workflows
Quick Look
Steer Like the LLM: Activation Steering that Mimics Prompting
Quick Look
Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers
Quick Look
Federated Reinforcement Learning for Efficient Mobile Crowdsensing under Incomplete Information
Quick Look
EASE: Federated Multimodal Unlearning via Entanglement-Aware Anchor Closure
Quick Look
Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML
Quick Look
FedKPer: Tackling Generalization and Personalization in Medical Federated Learning via Knowledge Personalization
Quick Look
U-Define: Designing User Workflows for Hard and Soft Constraints in LLM-Based Planning
Quick Look
Evaluating the Architectural Reasoning Capabilities of LLM Provers via the Obfuscated Natural Number Game
Quick Look
Continual Knowledge Updating in LLM Systems: Learning Through Multi-Timescale Memory Dynamics
Quick Look
Low-Cost Black-Box Detection of LLM Hallucinations via Dynamical System Prediction
Quick Look
How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation
Quick Look
SLIM: Sparse Latent Steering for Interpretable and Property-Directed LLM-Based Molecular Editing
Quick Look
Weight-Decay Turns Transformer Loss Landscapes Villani: Functional-Analytic Foundations for Optimization and Generalization
Quick Look
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels
Quick Look
Online Bayesian Calibration under Gradual and Abrupt System Changes
Quick Look
Joint Treatment Effect Estimation from Incomplete Healthcare Data: Temporal Causal Normalizing Flows with LLM-driven Evolutionary MNAR Imputation
Quick Look
LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation