Skip to content <title>Channels - KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving :: FRELIP Discovery

Home Search Guides Journals Learning

FRELIP Discovery Search

Open Access Catalog for African Scholarship

Channels
KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving

Search for more channels:

Similar Items: KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving

View Record
Explore related channels

Quick Look
RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching
Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
Make Your LVLM KV Cache More Lightweight
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?
Quick Look
QKVShare: Quantized KV-Cache Handoff for Multi-Agent On-Device LLMs
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes
Quick Look
Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale
Quick Look
EdgeServing: Deadline-Aware Multi-DNN Serving at the Edge
Quick Look
A Semantic Quantum Circuit Cache for Scalable and Distributed Quantum-Classical Workflows
Quick Look
ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
Accelerating Compound LLM Training Workloads with Maestro
Quick Look
KEET: Explaining Performance of GPU Kernels Using LLM Agents
Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference
Quick Look
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
Quick Look
Replication in Graph Partitioning and Scheduling Problems

About FRELIP

Free eLibrary Portal (FRELIP) provides access to academic resources, research materials, and scholarly publications from Nigerian universities and research institutions.

Quick Links

FRELIP Home
About FRELIP
Research Guides
Search Catalog

Resources

Indexed Records: 13,069+
RSS Feeds: 6,699+
Disciplines: 14
Subjects: 155

© 2026 FRELIP - Free eLibrary Portal | frelip.org | Powered by VuFind