Channels - EdgeServing: Deadline-Aware Multi-DNN Serving at the Edge :: FRELIP Discovery

Similar Items: EdgeServing: Deadline-Aware Multi-DNN Serving at the Edge

Quick Look
ClusterLess: Deadline-Aware Serverless Workflow Orchestration on Federated Edge Clusters
Quick Look
VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs
Quick Look
FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL
Quick Look
SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving
Quick Look
Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale
Quick Look
Surviving the Edge: Federated Learning under Networking and Resource Constraints
Quick Look
A Privacy-Preserving Machine Learning Framework for Edge Intelligence: An Empirical Analysis
Quick Look
LLM-Enhanced Deep Reinforcement Learning for Task Offloading in Collaborative Edge Computing
Quick Look
From Sensors to Insight: Rapid, Edge-to-Core Application Development for Sensor-Driven Applications
Quick Look
Orchestrating Serverless Applications in the Edge Cloud Space Continuum: What Breaks and What is Next?
Quick Look
Deadline-Driven Hierarchical Agentic Resource Sharing for AI Services and RAN Functions in AI-RAN
Quick Look
(POSTER) From Sensors to Insight: Rapid, Edge-to-Core Application Development for Sensor-Driven Applications
Quick Look
Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge
Quick Look
TREA: Low-precision Time-Multiplexed, Resource-Efficient Edge Accelerator for Object Detection and Classification
Quick Look
Decentralized Stratified Sampling for Low-Latency Approximate Geospatial Data Stream Processing in Edge-Cloud Architectures
Quick Look
Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on Multi-GPU Systems
Quick Look
Heterogeneous Model Fusion for Privacy-Aware Multi-Camera Surveillance via Synthetic Domain Adaptation
Quick Look
Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale
Quick Look
FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows