Channels - Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes :: FRELIP Discovery

Similar Items: Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes

Quick Look
AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving
Quick Look
Evolution of NVENC Efficiency: A Longitudinal Analysis of HQ and UHQ Tuning Efficiency, Latency and Energy Trade-offs
Quick Look
DICE: Enabling Efficient General-Purpose SIMT Execution with Statically Scheduled Coarse-Grained Reconfigurable Arrays
Quick Look
AHASD: Asynchronous Heterogeneous Architecture for LLM Adaptive Drafting Speculative Decoding on Mobile Devices
Quick Look
KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving
Quick Look
31.1 A 14.08-to-135.69Token/s ReRAM-on-Logic Stacked Outlier-Free Large-Language-Model Accelerator with Block-Clustered Weight-Compression and Adaptive Parallel-Speculative-Decoding
Quick Look
Make Your LVLM KV Cache More Lightweight
Quick Look
An Open-Source Flow for Single-Phase, Edge-Triggered to Two-Phase, Non-Overlapping Clocking Conversion
Quick Look
QKVShare: Quantized KV-Cache Handoff for Multi-Agent On-Device LLMs
Quick Look
RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching
Quick Look
RecFlash: Fast Recommendation System on In-Storage Computing with Frequency-Based Data Mapping
Quick Look
No Tile Left Behind: Multiprogramming for Surface-Code Architectures
Quick Look
At the Edge of the Heart: ULP FPGA-Based CNN for On-Device Cardiac Feature Extraction in Smart Health Sensors for Astronauts
Quick Look
NVLLM: A 3D NAND-Centric Architecture Enabling Edge on-Device LLM Inference
Quick Look
RAG-Enhanced Kernel-Based Heuristic Synthesis (RKHS): A Structured Methodology Using Large Language Models for Hardware Design
Quick Look
Efficient, VRAM-Constrained xLM Inference on Clients
Quick Look
Verification and Validation (V&V)-in-the-Loop for RISC-V Design: The Holistic Vision of BZL
Quick Look
EMiX: Emulating Beyond Single-FPGA Limits
Quick Look
Sparse-on-Dense: Area and Energy-Efficient Computing of Sparse Neural Networks on Dense Matrix Multiplication Accelerators
Quick Look
SafeTune: Mitigating Data Poisoning in LLM Fine-Tuning for RTL Code Generation
Quick Look
VitaLLM: A Versatile, Ultra-Compact Ternary LLM Accelerator with Dependency-Aware Scheduling
Quick Look
RCW-CIM: A Digital CIM-based LLM Accelerator with Read-Compute/Write
Quick Look
CuLifter: Lifting GPU Binaries to Typed IR
Quick Look
HAVEN: Hybrid Automated Verification ENgine for UVM Testbench Synthesis with LLMs