Channels - Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs :: FRELIP Discovery

Similar Items: Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs

Quick Look
ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL
Quick Look
Efficient Training on Multiple Consumer GPUs with RoundPipe
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs
Quick Look
VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?
Quick Look
EdgeServing: Deadline-Aware Multi-DNN Serving at the Edge
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
Quick Look
KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving
Quick Look
Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale
Quick Look
FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
HexiSeq: Accommodating Long Context Training of LLMs over Heterogeneous Hardware
Quick Look
FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training
Quick Look
Exploring the Efficiency of 3D-Stacked AI Chip Architecture for LLM Inference with Voxel
Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
Heterogeneous Model Fusion for Privacy-Aware Multi-Camera Surveillance via Synthetic Domain Adaptation
Quick Look
Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
Accelerating Compound LLM Training Workloads with Maestro
Quick Look
Enhancing Performance Insight at Scale: A Heterogeneous Framework for Exascale Diagnostics
Quick Look
Cloud Performance Decomposition for Long-Term Performance Engineering: A Case Study
Quick Look
Orchestrating Serverless Applications in the Edge Cloud Space Continuum: What Breaks and What is Next?