Channels - AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs :: FRELIP Discovery

Similar Items: AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs

Quick Look
HexiSeq: Accommodating Long Context Training of LLMs over Heterogeneous Hardware
Quick Look
Efficient Training on Multiple Consumer GPUs with RoundPipe
Quick Look
A Study on the Performance of Distributed Training of Data-driven CFD Simulations
Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on Multi-GPU Systems
Quick Look
FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training
Quick Look
Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism
Quick Look
A Scalable Recipe on SuperMUC-NG Phase 2: Efficient Large-Scale Training of Language Models
Quick Look
Stochastic Sparse Attention for Memory-Bound Inference
Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
Cross-Layer Energy Analysis of Multimodal Training on Grace Hopper Superchips
Quick Look
FedQueue: Queue-Aware Federated Learning for Cross-Facility HPC Training
Quick Look
ADELIA: Automatic Differentiation for Efficient Laplace Inference Approximations
Quick Look
AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
Quick Look
Distributed Quantum Circuit Optimisation: Evaluating Global and Local encodings
Quick Look
CCL-D: A High-Precision Diagnostic System for Slow and Hang Anomalies in Large-Scale Model Training
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
Exploring the Efficiency of 3D-Stacked AI Chip Architecture for LLM Inference with Voxel
Quick Look
A Semantic Quantum Circuit Cache for Scalable and Distributed Quantum-Classical Workflows
Quick Look
Joint Temporal-Structural Representation Learning for Distributed Fault Discrimination in Microservice Architectures
Quick Look
Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend
Quick Look
TREA: Low-precision Time-Multiplexed, Resource-Efficient Edge Accelerator for Object Detection and Classification
Quick Look
QKVShare: Quantized KV-Cache Handoff for Multi-Agent On-Device LLMs
Quick Look
A Test Taxonomy and Continuous Integration Ecosystem for Dynamic Resource Management in HPC