Channels - Accelerating Compound LLM Training Workloads with Maestro :: FRELIP Discovery

Similar Items: Accelerating Compound LLM Training Workloads with Maestro

Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching
Quick Look
Lifting to tensors when compiling scientific computing workloads for AI Engines
Quick Look
MERBIT: A GPU-Based SpMV Method for Iterative Workloads
Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
Adaptation of AI-accelerated CFD Simulations to the IPU platform
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs
Quick Look
Accelerating Locality-Driven Integration in Quantum Chemistry with Block-Structured Matrix Multiplication
Quick Look
GPU-Accelerated Simulations of Problems with Moving Boundaries and Fluid-Structure Interaction at Extreme Scales
Quick Look
Accelerating Precise End-to-End Simulation: Latency-Sensitive Many-core System Modeling
Quick Look
KEET: Explaining Performance of GPU Kernels Using LLM Agents
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows
Quick Look
TREA: Low-precision Time-Multiplexed, Resource-Efficient Edge Accelerator for Object Detection and Classification
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
Quick Look
Real-Time GPU-Accelerated Monte Carlo Evaluation of Safety-Critical AEB Systems Under Uncertainty
Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs