Channels - Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference :: FRELIP Discovery

Similar Items: Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference

Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows
Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
Quick Look
SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
Quick Look
Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
Exploring the Efficiency of 3D-Stacked AI Chip Architecture for LLM Inference with Voxel
Quick Look
MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with Hardware-Accelerated Communication on Multi-GPU Systems
Quick Look
Replication in Graph Partitioning and Scheduling Problems
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
Stochastic Sparse Attention for Memory-Bound Inference
Quick Look
KEET: Explaining Performance of GPU Kernels Using LLM Agents
Quick Look
ADELIA: Automatic Differentiation for Efficient Laplace Inference Approximations
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
LLM-Enhanced Deep Reinforcement Learning for Task Offloading in Collaborative Edge Computing
Quick Look
VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?
Quick Look
CCL-Bench 1.0: A Trace-Based Benchmark for LLM Infrastructure
Quick Look
RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching
Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference