Channels - Efficient, VRAM-Constrained xLM Inference on Clients :: FRELIP Discovery

Similar Items: Efficient, VRAM-Constrained xLM Inference on Clients

Quick Look
Silicon Showdown: Performance, Efficiency, and Ecosystem Barriers in Consumer-Grade LLM Inference
Quick Look
XtraMAC: An Efficient MAC Architecture for Mixed-Precision LLM Inference on FPGA
Quick Look
TokenStack: A Heterogeneous HBM-PIM Architecture and Runtime for Efficient LLM Inference
Quick Look
DPU or GPU for Accelerating Neural Networks Inference -- Why not both? Split CNN Inference
Quick Look
EMiX: Emulating Beyond Single-FPGA Limits
Quick Look
DSPE: An Energy-Efficient Edge Processor for DeepSeek Inference with MerkleTree-based Incremental Pruning, Multi-Stage Boothing Lookup and Dynamic Adaptive Posit Processing
Quick Look
NVLLM: A 3D NAND-Centric Architecture Enabling Edge on-Device LLM Inference
Quick Look
VitaLLM: A Versatile and Tiny Accelerator for Mixed-Precision LLM Inference on Edge Devices
Quick Look
ViM-Q: Scalable Algorithm-Hardware Co-Design for Vision Mamba Model Inference on FPGA
Quick Look
Design Conductor 2.0: An agent builds a TurboQuant inference accelerator in 80 hours
Quick Look
Evolution of NVENC Efficiency: A Longitudinal Analysis of HQ and UHQ Tuning Efficiency, Latency and Energy Trade-offs
Quick Look
RangeGuard: Efficient, Bounded Approximate Error Correction for Reliable DNNs
Quick Look
Effective and Memory-Efficient Alternatives to ECC for Reliable Large-Scale DNNs
Quick Look
Cerberus: Cross-Layer ECC Co-Design for Robust and Efficient Memory Protection
Quick Look
Sparse-on-Dense: Area and Energy-Efficient Computing of Sparse Neural Networks on Dense Matrix Multiplication Accelerators
Quick Look
DICE: Enabling Efficient General-Purpose SIMT Execution with Statically Scheduled Coarse-Grained Reconfigurable Arrays
Quick Look
EULER-ADAS: Energy-Efficient & SIMD-Unified Logarithmic-Posit Engine for Precision-Reconfigurable Approximate ADAS Acceleration
Quick Look
A PVT-Resilient Subthreshold SRAM-Based In-Memory Computing Accelerator with In-Situ Regulation for Energy-Efficient Spiking Neural Networks
Quick Look
TransDot: An Area-efficient Reconfigurable Floating-Point Unit for Trans-Precision Dot-Product Accumulation for FPGA AI Engines
Quick Look
AHASD: Asynchronous Heterogeneous Architecture for LLM Adaptive Drafting Speculative Decoding on Mobile Devices
Quick Look
RecFlash: Fast Recommendation System on In-Storage Computing with Frequency-Based Data Mapping
Quick Look
No Tile Left Behind: Multiprogramming for Surface-Code Architectures
Quick Look
At the Edge of the Heart: ULP FPGA-Based CNN for On-Device Cardiac Feature Extraction in Smart Health Sensors for Astronauts
Quick Look
RAG-Enhanced Kernel-Based Heuristic Synthesis (RKHS): A Structured Methodology Using Large Language Models for Hardware Design