Channels - TurboGR: An Accelerated Training System for Large-Scale Generative Recommendation :: FRELIP Discovery

Similar Items: TurboGR: An Accelerated Training System for Large-Scale Generative Recommendation

Quick Look
RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching
Quick Look
CCL-D: A High-Precision Diagnostic System for Slow and Hang Anomalies in Large-Scale Model Training
Quick Look
Accelerating Compound LLM Training Workloads with Maestro
Quick Look
Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism
Quick Look
A Scalable Recipe on SuperMUC-NG Phase 2: Efficient Large-Scale Training of Language Models
Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
GPU-Accelerated Simulations of Problems with Moving Boundaries and Fluid-Structure Interaction at Extreme Scales
Quick Look
Lakestream: A Consistent and Brokerless Data Plane for Large Foundation Model Training
Quick Look
Accelerating Precise End-to-End Simulation: Latency-Sensitive Many-core System Modeling
Quick Look
Real-Time GPU-Accelerated Monte Carlo Evaluation of Safety-Critical AEB Systems Under Uncertainty
Quick Look
Adaptation of AI-accelerated CFD Simulations to the IPU platform
Quick Look
Parallel-in-Time Training of Recurrent Neural Networks for Dynamical Systems Reconstruction
Quick Look
Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs
Quick Look
MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with Hardware-Accelerated Communication on Multi-GPU Systems
Quick Look
Accelerating Locality-Driven Integration in Quantum Chemistry with Block-Structured Matrix Multiplication
Quick Look
FPGA-Accelerated Lock Management and Transaction Processing: Architecture, Optimization, and Design Space Exploration
Quick Look
TREA: Low-precision Time-Multiplexed, Resource-Efficient Edge Accelerator for Object Detection and Classification
Quick Look
ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload
Quick Look
MANOJAVAM: A Scalable, Unified FPGA Accelerator for Matrix Multiplication and Singular Value Decomposition in Principal Component Analysis
Quick Look
Efficient Training on Multiple Consumer GPUs with RoundPipe
Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale
Quick Look
A Study on the Performance of Distributed Training of Data-driven CFD Simulations
Quick Look
Cross-Layer Energy Analysis of Multimodal Training on Grace Hopper Superchips