Channels - ADELIA: Automatic Differentiation for Efficient Laplace Inference Approximations :: FRELIP Discovery

Similar Items: ADELIA: Automatic Differentiation for Efficient Laplace Inference Approximations

Quick Look
Exploring the Efficiency of 3D-Stacked AI Chip Architecture for LLM Inference with Voxel
Quick Look
Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend
Quick Look
Stochastic Sparse Attention for Memory-Bound Inference
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference
Quick Look
SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
Quick Look
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
Quick Look
Decentralized Stratified Sampling for Low-Latency Approximate Geospatial Data Stream Processing in Edge-Cloud Architectures
Quick Look
Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference
Quick Look
AI Inference as Relocatable Electricity Demand: A Latency-Constrained Energy-Geography Framework
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
Efficient Training on Multiple Consumer GPUs with RoundPipe
Quick Look
AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training
Quick Look
TREA: Low-precision Time-Multiplexed, Resource-Efficient Edge Accelerator for Object Detection and Classification
Quick Look
FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training
Quick Look
Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism
Quick Look
A Scalable Recipe on SuperMUC-NG Phase 2: Efficient Large-Scale Training of Language Models
Quick Look
A Test Taxonomy and Continuous Integration Ecosystem for Dynamic Resource Management in HPC
Quick Look
A Semantic Quantum Circuit Cache for Scalable and Distributed Quantum-Classical Workflows
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism
Quick Look
Adaptive Self-Organization in Anonymous Dynamic Networks