Channels - ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload :: FRELIP Discovery

Similar Items: ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload

Quick Look
Accelerating Compound LLM Training Workloads with Maestro
Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
Lifting to tensors when compiling scientific computing workloads for AI Engines
Quick Look
MERBIT: A GPU-Based SpMV Method for Iterative Workloads
Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
Joint Temporal-Structural Representation Learning for Distributed Fault Discrimination in Microservice Architectures
Quick Look
Amortized Asynchronous Byzantine Reliable Broadcast with Optimal Resilience
Quick Look
Resilient AI Supercomputer Networking using MRC and SRv6
Quick Look
KEET: Explaining Performance of GPU Kernels Using LLM Agents
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows
Quick Look
Position: LLM Inference Should Be Evaluated as Energy-to-Token Production
Quick Look
An Uncertainty-Aware Resilience Micro-Agent for Causal Observability in the Computing Continuum
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
Quick Look
NCCLZ: Compression-Enabled GPU Collectives with Decoupled Quantization and Entropy Coding
Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
LLM-Enhanced Deep Reinforcement Learning for Task Offloading in Collaborative Edge Computing