Channels - KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving :: FRELIP Discovery

Similar Items: KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving

Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
Quick Look
KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving
Quick Look
RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference
Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
EdgeServing: Deadline-Aware Multi-DNN Serving at the Edge
Quick Look
VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale
Quick Look
QubitCache: Quantum-Inspired Probabilistic Attention Preservation for KV-Cache Compression
Quick Look
FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows
Quick Look
A Semantic Quantum Circuit Cache for Scalable and Distributed Quantum-Classical Workflows
Quick Look
Communication Efficient Byzantine Agreement with Predictions
Quick Look
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
Quick Look
Kairos: A Scalable Serving System for Physical AI
Quick Look
ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL
Quick Look
Exploring the Efficiency of 3D-Stacked AI Chip Architecture for LLM Inference with Voxel
Quick Look
The Illusion of Power Capping in LLM Decode: A Phase-Aware Energy Characterisation Across Attention Architectures
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference
Quick Look
ChunkFlow: Communication-Aware Chunked Prefetching for Layerwise Offloading in Distributed Diffusion Transformer Inference