Channels - Attention Once Is All You Need: Efficient Streaming Inference with Stateful Transformers :: FRELIP Discovery

Similar Items: Attention Once Is All You Need: Efficient Streaming Inference with Stateful Transformers

Quick Look
Masked Generative Transformer Is What You Need for Image Editing
Quick Look
Elastic Attention Cores for Scalable Vision Transformers
Quick Look
Understanding In-Context Learning for Nonlinear Regression with Transformers: Attention as Featurizer
Quick Look
Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs
Quick Look
Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent
Quick Look
The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons, and Dimension Disparity
Quick Look
Strait: Perceiving Priority and Interference in ML Inference Serving
Quick Look
QLAM: A Quantum Long-Attention Memory Approach to Long-Sequence Token Modeling
Quick Look
Sequential Inference for Gaussian Processes: A Signal Processing Perspective
Quick Look
It Just Takes Two: Scaling Amortized Inference to Large Sets
Quick Look
Spiking Sequence Machines and Transformers
Quick Look
Fast Byte Latent Transformer
Quick Look
Bayesian Sensitivity of Causal Inference Estimators under Evidence-Based Priors
Quick Look
Variational Inference for Lévy Process-Driven SDEs via Neural Tilting
Quick Look
Sharp Capacity Thresholds in Linear Associative Memory: From Winner-Take-All to Listwise Retrieval
Quick Look
KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference
Quick Look
Transformers with Selective Access to Early Representations
Quick Look
Taming Outlier Tokens in Diffusion Transformers
Quick Look
Provable Quantization with Randomized Hadamard Transform
Quick Look
Transformed Latent Variable Multi-Output Gaussian Processes
Quick Look
DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures
Quick Look
Memory-Efficient Continual Learning with CLIP Models
Quick Look
Trust, but Verify: Peeling Low-Bit Transformer Networks for Training Monitoring
Quick Look
Quantifying Concentration Phenomena of Mean-Field Transformers in the Low-Temperature Regime