Channels - Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs :: FRELIP Discovery

Similar Items: Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs

Quick Look
MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with Hardware-Accelerated Communication on Multi-GPU Systems
Quick Look
Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend
Quick Look
Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on Multi-GPU Systems
Quick Look
Efficient Training on Multiple Consumer GPUs with RoundPipe
Quick Look
ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
Adaptation of AI-accelerated CFD Simulations to the IPU platform
Quick Look
nvPAX: Constrained Optimization for Dynamic Power Allocation in Hierarchical and Multi-Tenant Systems
Quick Look
GMGaze: MoE-Based Context-Aware Gaze Estimation with CLIP and Multiscale Transformer
Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
GPU-Accelerated Simulations of Problems with Moving Boundaries and Fluid-Structure Interaction at Extreme Scales
Quick Look
Real-Time GPU-Accelerated Monte Carlo Evaluation of Safety-Critical AEB Systems Under Uncertainty
Quick Look
MANOJAVAM: A Scalable, Unified FPGA Accelerator for Matrix Multiplication and Singular Value Decomposition in Principal Component Analysis
Quick Look
Akita: A High Usability Simulation Framework for Computer Architecture
Quick Look
Lifting to tensors when compiling scientific computing workloads for AI Engines
Quick Look
LLM-Enhanced Deep Reinforcement Learning for Task Offloading in Collaborative Edge Computing
Quick Look
Adaptive Self-Organization in Anonymous Dynamic Networks
Quick Look
VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU
Quick Look
Eliminating Hidden Serialization in Multi-Node Megakernel Communication
Quick Look
Towards the Democratization and Standardization of Dynamic Resources with MPI Spawning
Quick Look
Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale
Quick Look
EdgeServing: Deadline-Aware Multi-DNN Serving at the Edge