Channels - Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving :: FRELIP Discovery

Similar Items: Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving

Quick Look
KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving
Quick Look
VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale
Quick Look
EdgeServing: Deadline-Aware Multi-DNN Serving at the Edge
Quick Look
KEET: Explaining Performance of GPU Kernels Using LLM Agents
Quick Look
A Semantic Quantum Circuit Cache for Scalable and Distributed Quantum-Classical Workflows
Quick Look
Pythia: Toward Predictability-Driven Agent-Native LLM Serving
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
Characterizing Path-Independent Fees: A Route to Zero Impermanent Loss in CPMMs
Quick Look
Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend
Quick Look
Accelerating Compound LLM Training Workloads with Maestro
Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference
Quick Look
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
Quick Look
LLM-Enhanced Deep Reinforcement Learning for Task Offloading in Collaborative Edge Computing