Channels - Stochastic Sparse Attention for Memory-Bound Inference :: FRELIP Discovery

Similar Items: Stochastic Sparse Attention for Memory-Bound Inference

Quick Look
Exploring Sparse Matrix Multiplication Kernels on the Cerebras CS-3
Quick Look
SparseRL-Sync: Lossless Weight Synchronization with ~100x Less Communication
Quick Look
ADELIA: Automatic Differentiation for Efficient Laplace Inference Approximations
Quick Look
AnTi-MiCS: Analytical Framework for Bounding Time in Embedded Mixed-Criticality Systems
Quick Look
AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference
Quick Look
SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
Quick Look
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
Quick Look
Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference
Quick Look
Exploring the Efficiency of 3D-Stacked AI Chip Architecture for LLM Inference with Voxel
Quick Look
AI Inference as Relocatable Electricity Demand: A Latency-Constrained Energy-Geography Framework
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend
Quick Look
A Test Taxonomy and Continuous Integration Ecosystem for Dynamic Resource Management in HPC
Quick Look
A Semantic Quantum Circuit Cache for Scalable and Distributed Quantum-Classical Workflows
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
Quick Look
Efficient Training on Multiple Consumer GPUs with RoundPipe
Quick Look
Adaptive Self-Organization in Anonymous Dynamic Networks
Quick Look
Real-Time GPU-Accelerated Monte Carlo Evaluation of Safety-Critical AEB Systems Under Uncertainty
Quick Look
End-to-End and Phase-Level Performance Optimization for Hyperledger Fabric
Quick Look
A Study on the Performance of Distributed Training of Data-driven CFD Simulations
Quick Look
Towards the Democratization and Standardization of Dynamic Resources with MPI Spawning