Channels - ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL :: FRELIP Discovery

Similar Items: ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL

Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?
Quick Look
Efficient Training on Multiple Consumer GPUs with RoundPipe
Quick Look
Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
EdgeServing: Deadline-Aware Multi-DNN Serving at the Edge
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
SparseRL-Sync: Lossless Weight Synchronization with ~100x Less Communication
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale
Quick Look
Pact: A Choreographic Language for Agentic Ecosystems
Quick Look
KEET: Explaining Performance of GPU Kernels Using LLM Agents
Quick Look
Safactory: A Scalable Agent Factory for Trustworthy Autonomous Intelligence
Quick Look
SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
Quick Look
Deadline-Driven Hierarchical Agentic Resource Sharing for AI Services and RAN Functions in AI-RAN
Quick Look
RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
Quick Look
Heterogeneous Model Fusion for Privacy-Aware Multi-Camera Surveillance via Synthetic Domain Adaptation
Quick Look
FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training
Quick Look
Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism
Quick Look
NeuroRing: Scaling Spiking Neural Networks via Multi-FPGA Bidirectional Ring Topologies and Stream-Dataflow Architectures