LUT Based

LUT-based approaches are revolutionizing efficient deep learning inference by replacing traditional multiplication operations with look-up table computations. Current research focuses on optimizing LUT architectures for various applications, including large language models (LLMs) and image restoration, employing techniques like multiple LUT networks and group-wise quantization to improve speed and energy efficiency while maintaining accuracy. This methodology offers significant potential for deploying computationally intensive models on resource-constrained edge devices and FPGAs, thereby broadening the accessibility and applicability of advanced AI.

Papers

June 25, 2024

T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge
Jianyu Wei, Shijie Cao, Ting Cao, Lingxiao Ma, Lei Wang, Yanyong Zhang, Mao Yang
Language Model Extreme Edge Lookup Table LLM Quantization LUT Based

March 25, 2023

Toward DNN of LUTs: Learning Efficient Image Restoration with Multiple Look-Up Tables
Jiacheng Li, Chang Chen, Zhen Cheng, Zhiwei Xiong
Super Resolution Image Restoration DNN Model Image Restoration Task Lookup Table Restoration Algorithm LUT Based

June 20, 2022

LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models
Gunho Park, Baeseong Park, Minsub Kim, Sungjae Lee, Jeonghoon Kim, Beomseok Kwon, Se Jung Kwon, Byeongwook Kim, Youngjoo Lee, Dongsoo Lee
Efficient Inference Matrix Multiplication Low Bit Quantization Weight Only Quantization Efficient Dequantization LUT Based

December 4, 2021

Logic Shrinkage: Learned FPGA Netlist Sparsity for Efficient Neural Network Inference
Erwei Wang, James J. Davis, Georgios-Ilias Stavrou, Peter Y. K. Cheung, George A. Constantinides, Mohamed S. Abdelfattah
Field Programmable Gate Array Neural Network Inference Shrinkage Estimator DNN Acceleration LUT Based

LUT Based

Papers

T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge

Toward DNN of LUTs: Learning Efficient Image Restoration with Multiple Look-Up Tables

LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models

Logic Shrinkage: Learned FPGA Netlist Sparsity for Efficient Neural Network Inference