Channels - Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend :: FRELIP Discovery

Similar Items: Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend

Quick Look
MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with Hardware-Accelerated Communication on Multi-GPU Systems
Quick Look
Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs
Quick Look
Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
Characterizing Path-Independent Fees: A Route to Zero Impermanent Loss in CPMMs
Quick Look
GMGaze: MoE-Based Context-Aware Gaze Estimation with CLIP and Multiscale Transformer
Quick Look
Stochastic Sparse Attention for Memory-Bound Inference
Quick Look
ADELIA: Automatic Differentiation for Efficient Laplace Inference Approximations
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference
Quick Look
SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
Quick Look
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
Quick Look
Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference
Quick Look
Exploring the Efficiency of 3D-Stacked AI Chip Architecture for LLM Inference with Voxel
Quick Look
AI Inference as Relocatable Electricity Demand: A Latency-Constrained Energy-Geography Framework
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
Resource-Element Energy Difference for Noncoherent Over-the-Air Federated Learning
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
Delay-Aware Large-Small Model Collaboration over LEO Satellite Networks
Quick Look
HexiSeq: Accommodating Long Context Training of LLMs over Heterogeneous Hardware
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving
Quick Look
Eliminating Hidden Serialization in Multi-Node Megakernel Communication
Quick Look
Communication Offloading on SmartNIC DPUs: A Quantitative Approach