Channels - Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism :: FRELIP Discovery

Similar Items: Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism

Quick Look
Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale
Quick Look
VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?
Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference
Quick Look
Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on Multi-GPU Systems
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
EdgeServing: Deadline-Aware Multi-DNN Serving at the Edge
Quick Look
AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
Quick Look
Lifting to tensors when compiling scientific computing workloads for AI Engines
Quick Look
ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism
Quick Look
KEET: Explaining Performance of GPU Kernels Using LLM Agents
Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
LLM-Enhanced Deep Reinforcement Learning for Task Offloading in Collaborative Edge Computing
Quick Look
CCL-Bench 1.0: A Trace-Based Benchmark for LLM Infrastructure
Quick Look
Exploring the Efficiency of 3D-Stacked AI Chip Architecture for LLM Inference with Voxel
Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
Adaptive Self-Organization in Anonymous Dynamic Networks
Quick Look
Adaptation of AI-accelerated CFD Simulations to the IPU platform
Quick Look
Heterogeneous Model Fusion for Privacy-Aware Multi-Camera Surveillance via Synthetic Domain Adaptation