Channels - Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism :: FRELIP Discovery

Similar Items: Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism

Quick Look
Surviving Partial Rank Failures in Wide Expert-Parallel MoE Inference
Quick Look
MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with Hardware-Accelerated Communication on Multi-GPU Systems
Quick Look
Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs
Quick Look
Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend
Quick Look
A Scalable Recipe on SuperMUC-NG Phase 2: Efficient Large-Scale Training of Language Models
Quick Look
CCL-D: A High-Precision Diagnostic System for Slow and Hang Anomalies in Large-Scale Model Training
Quick Look
AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
Quick Look
Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale
Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
Lakestream: A Consistent and Brokerless Data Plane for Large Foundation Model Training
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
CvxCluster: Solving Large, Complex, Granular Resource Allocation Problems 100-1000x Faster
Quick Look
GMGaze: MoE-Based Context-Aware Gaze Estimation with CLIP and Multiscale Transformer
Quick Look
Efficient Training on Multiple Consumer GPUs with RoundPipe
Quick Look
Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on Multi-GPU Systems
Quick Look
AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs
Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
TREA: Low-precision Time-Multiplexed, Resource-Efficient Edge Accelerator for Object Detection and Classification
Quick Look
Accelerating Compound LLM Training Workloads with Maestro
Quick Look
Towards the Democratization and Standardization of Dynamic Resources with MPI Spawning
Quick Look
VDCores: Resource Decoupled Programming and Execution for Asynchronous GPU
Quick Look
Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale