Channels - KEET: Explaining Performance of GPU Kernels Using LLM Agents :: FRELIP Discovery

Similar Items: KEET: Explaining Performance of GPU Kernels Using LLM Agents

Quick Look
PipeMax: Enhancing Offline LLM Inference on Commodity GPU Servers
Quick Look
SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
Quick Look
Microbenchmark-Driven Analytical Performance Modeling Across Modern GPU Architectures
Quick Look
VDCores: Resource Decoupled Programming and Execution for Asynchronous GPU
Quick Look
Metal-Sci: A Scientific Compute Benchmark for Evolutionary LLM Kernel Search on Apple Silicon
Quick Look
MERBIT: A GPU-Based SpMV Method for Iterative Workloads
Quick Look
Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
Quick Look
FusionRCG: Orchestrating Recursive Computation Graphs across GPU Memory Hierarchies
Quick Look
VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?
Quick Look
VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU
Quick Look
GPU-Accelerated Simulations of Problems with Moving Boundaries and Fluid-Structure Interaction at Extreme Scales
Quick Look
Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on Multi-GPU Systems
Quick Look
Real-Time GPU-Accelerated Monte Carlo Evaluation of Safety-Critical AEB Systems Under Uncertainty
Quick Look
Agentic Performance at the Edge: Insights from Benchmarking
Quick Look
MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with Hardware-Accelerated Communication on Multi-GPU Systems
Quick Look
On Similarity of Computational Kernels in our Codes and Proxies
Quick Look
LLM-Emu: Native Runtime Emulation of LLM Inference via Profile-Driven Sampling
Quick Look
Exploring Sparse Matrix Multiplication Kernels on the Cerebras CS-3
Quick Look
Regulating Branch Parallelism in LLM Serving
Quick Look
Accelerating Compound LLM Training Workloads with Maestro
Quick Look
Nitsum: Serving Tiered LLM Requests with Adaptive Tensor Parallelism
Quick Look
ResiHP: Taming LLM Training Failures with Dynamic Hybrid
Quick Look
FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows
Quick Look
Taming Request Imbalance: SLO-Aware Scheduling for Disaggregated LLM Inference