Channels - FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows :: FRELIP Discovery

Similar Items: FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows

Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference
Quick Look
SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
Quick Look
Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale
Quick Look
ClusterLess: Deadline-Aware Serverless Workflow Orchestration on Federated Edge Clusters
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
Quick Look
Heterogeneous Model Fusion for Privacy-Aware Multi-Camera Surveillance via Synthetic Domain Adaptation
Quick Look
FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training
Quick Look
Replication in Graph Partitioning and Scheduling Problems
Quick Look
A Semantic Quantum Circuit Cache for Scalable and Distributed Quantum-Classical Workflows
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
Privacy-preserving Chunk Scheduling in a BitTorrent Implementation of Federated Learning
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
Accelerating Compound LLM Training Workloads with Maestro
Quick Look
Enhancing Performance Insight at Scale: A Heterogeneous Framework for Exascale Diagnostics
Quick Look
HexiSeq: Accommodating Long Context Training of LLMs over Heterogeneous Hardware
Quick Look
From Coordinate Matching to Structural Alignment: Rethinking Prototype Alignment in Heterogeneous Federated Learning
Quick Look
HiRL: Hierarchical Reinforcement Learning for Coordinated Resource Management in Heterogeneous Edge Computing
Quick Look
KEET: Explaining Performance of GPU Kernels Using LLM Agents
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving