Channels - KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference :: FRELIP Discovery

Similar Items: KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

Quick Look
Make Your LVLM KV Cache More Lightweight
Quick Look
SpecKV: Adaptive Speculative Decoding with Compression-Aware Gamma Selection
Quick Look
QKVShare: Quantized KV-Cache Handoff for Multi-Agent On-Device LLMs
Quick Look
KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving
Quick Look
How Long Does Infinite Width Last? Signal Propagation in Long-Range Linear Recurrences
Quick Look
RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching
Quick Look
ParaRNN: An Interpretable and Parallelizable Recurrent Neural Network for Time-Dependent Data
Quick Look
Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes
Quick Look
STEPS: A Temporal Smooth Error Propagation Solver on the Manifolds for Test-Time Adaptation in Time Series Forecasting
Quick Look
Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients
Quick Look
Strait: Perceiving Priority and Interference in ML Inference Serving
Quick Look
Sequential Inference for Gaussian Processes: A Signal Processing Perspective
Quick Look
It Just Takes Two: Scaling Amortized Inference to Large Sets
Quick Look
Synthetic Computers at Scale for Long-Horizon Productivity Simulation
Quick Look
Bayesian Sensitivity of Causal Inference Estimators under Evidence-Based Priors
Quick Look
Variational Inference for Lévy Process-Driven SDEs via Neural Tilting
Quick Look
Understanding In-Context Learning for Nonlinear Regression with Transformers: Attention as Featurizer
Quick Look
Stories in Space: In-Context Learning Trajectories in Conceptual Belief Space
Quick Look
Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent
Quick Look
MSMixer: Learned Multi-Scale Temporal Mixing with Complementary Linear Shortcut for Long-Term Time Series Forecasting
Quick Look
QubitCache: Quantum-Inspired Probabilistic Attention Preservation for KV-Cache Compression
Quick Look
Early Detection of Water Stress by Plant Electrophysiology: Machine Learning for Irrigation Management
Quick Look
Exponential families from a single KL identity
Quick Look
TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering