Channels - Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on Multi-GPU Systems :: FRELIP Discovery

Similar Items: Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on Multi-GPU Systems

Quick Look
Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs
Quick Look
Lifting to tensors when compiling scientific computing workloads for AI Engines
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU
Quick Look
MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with Hardware-Accelerated Communication on Multi-GPU Systems
Quick Look
VDCores: Resource Decoupled Programming and Execution for Asynchronous GPU
Quick Look
KEET: Explaining Performance of GPU Kernels Using LLM Agents
Quick Look
Real-Time GPU-Accelerated Monte Carlo Evaluation of Safety-Critical AEB Systems Under Uncertainty
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
Quick Look
Microbenchmark-Driven Analytical Performance Modeling Across Modern GPU Architectures
Quick Look
MERBIT: A GPU-Based SpMV Method for Iterative Workloads
Quick Look
GPU-Accelerated Simulations of Problems with Moving Boundaries and Fluid-Structure Interaction at Extreme Scales
Quick Look
On Similarity of Computational Kernels in our Codes and Proxies
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
Akita: A High Usability Simulation Framework for Computer Architecture
Quick Look
EdgeServing: Deadline-Aware Multi-DNN Serving at the Edge
Quick Look
LLM-Enhanced Deep Reinforcement Learning for Task Offloading in Collaborative Edge Computing
Quick Look
AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs
Quick Look
HexiSeq: Accommodating Long Context Training of LLMs over Heterogeneous Hardware
Quick Look
Heterogeneous Model Fusion for Privacy-Aware Multi-Camera Surveillance via Synthetic Domain Adaptation
Quick Look
AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
Quick Look
Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale
Quick Look
Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism