Channels - Not All Thoughts Need HBM: Semantics-Aware Memory Hierarchy for LLM Reasoning :: FRELIP Discovery

Similar Items: Not All Thoughts Need HBM: Semantics-Aware Memory Hierarchy for LLM Reasoning

Quick Look
TokenStack: A Heterogeneous HBM-PIM Architecture and Runtime for Efficient LLM Inference
Quick Look
VitaLLM: A Versatile, Ultra-Compact Ternary LLM Accelerator with Dependency-Aware Scheduling
Quick Look
VitaLLM: A Versatile and Tiny Accelerator for Mixed-Precision LLM Inference on Edge Devices
Quick Look
AME-PIM: Can Memory be Your Next Tensor Accelerator?
Quick Look
LLM-Driven Design Space Exploration of FPGA-based Accelerators
Quick Look
Effective and Memory-Efficient Alternatives to ECC for Reliable Large-Scale DNNs
Quick Look
Cerberus: Cross-Layer ECC Co-Design for Robust and Efficient Memory Protection
Quick Look
Silicon Showdown: Performance, Efficiency, and Ecosystem Barriers in Consumer-Grade LLM Inference
Quick Look
UVMarvel: an Automated LLM-aided UVM Machine for Subsystem-level RTL Verification
Quick Look
XtraMAC: An Efficient MAC Architecture for Mixed-Precision LLM Inference on FPGA
Quick Look
Arcane: An Assertion Reduction Framework through Semantic Clustering and MCTS-Guided Rule Exploring
Quick Look
AHASD: Asynchronous Heterogeneous Architecture for LLM Adaptive Drafting Speculative Decoding on Mobile Devices
Quick Look
SafeTune: Mitigating Data Poisoning in LLM Fine-Tuning for RTL Code Generation
Quick Look
RCW-CIM: A Digital CIM-based LLM Accelerator with Read-Compute/Write
Quick Look
Not All Faults Are Equal: Transient-Fault Sensitivity Characterization of an Open-Source RISC-V Vector Cluster
Quick Look
NVLLM: A 3D NAND-Centric Architecture Enabling Edge on-Device LLM Inference
Quick Look
AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving
Quick Look
RFAmpDesigner: A Self-Evolving Multi-Agent LLM Framework for Automated Radio Frequency Amplifier Design
Quick Look
HyDRA: Deadline and Reuse-Aware Cacheability for Hardware Accelerators
Quick Look
A PVT-Resilient Subthreshold SRAM-Based In-Memory Computing Accelerator with In-Situ Regulation for Energy-Efficient Spiking Neural Networks
Quick Look
PipeRTL: Timing-Aware Pipeline Optimization at IR-Level for RTL Generation
Quick Look
RecFlash: Fast Recommendation System on In-Storage Computing with Frequency-Based Data Mapping
Quick Look
No Tile Left Behind: Multiprogramming for Surface-Code Architectures
Quick Look
At the Edge of the Heart: ULP FPGA-Based CNN for On-Device Cardiac Feature Extraction in Smart Health Sensors for Astronauts