Low Bit Quantization

Low-bit quantization aims to reduce the memory footprint and computational cost of large language models (LLMs) and other deep learning models by representing their weights and activations using fewer bits, thereby accelerating inference and enabling deployment on resource-constrained devices. Current research focuses on developing novel quantization algorithms, including post-training quantization (PTQ) and quantization-aware training (QAT) methods, often tailored to specific model architectures like transformers and convolutional neural networks. These advancements are significant because they address the critical bottleneck of deploying large, computationally expensive models, impacting both the efficiency of research and the accessibility of powerful AI applications.

Papers

January 26, 2024

MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision Transformer
Yu-Shan Tai, An-Yeu, Wu
Vision Transformer Quantization Operator Low Bit Quantization GPUSQ ViT

December 7, 2023

GenQ: Quantization in Low Data Regimes with Generative Synthetic Data
Yuhang Li, Youngeun Kim, Donghyun Lee, Souvik Kundu, Priyadarshini Panda
Generative Model Synthetic Data Quantization Operator Low Bit Quantization Low Data Regime Gradient Quantization

November 2, 2023

AWEQ: Post-Training Quantization with Activation-Weight Equalization for Large Language Models
Baisong Li, Xingwang Wang, Haixiao Xu
Quantization Operator Quantization Error Weight Quantization Activation Quantization Low Bit Quantization

October 29, 2023

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving
Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
High Efficiency Activation Quantization Low Bit Quantization LLM Quantization Single Atom LLM Accuracy Fine Grained Quantization

October 3, 2023

Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness
Young Jin Kim, Raffy Fahim, Hany Hassan Awadalla
Native Robustness Low Bit Quantization Model Scaling Weight Only Quantization Expert Parallelism

September 29, 2023

PB-LLM: Partially Binarized Large Language Models
Yuzhang Shang, Zhihang Yuan, Qiang Wu, Zhen Dong
Large Language Model Neural Network Post Training Quantization Binarization Method Low Bit Quantization LLM RBMT Partial Binarization

August 29, 2023

Low-bit Quantization for Deep Graph Neural Networks with Smoothness-aware Message Propagation
Shuang Wang, Bahaeddin Eravci, Rustam Guliyev, Hakan Ferhatosmanoglu
Graph Neural Network Low Bit Quantization Message Propagation

August 18, 2023

ResQ: Residual Quantization for Video Perception
Davide Abati, Haitam Ben Yahia, Markus Nagel, Amirhossein Habibian
Low Bit Quantization Residual Quantization Video Perception

July 25, 2023

Overcoming Distribution Mismatch in Quantizing Image Super-Resolution Networks
Cheeun Hong, Kyoung Mu Lee
Super Resolution Image Super Resolution Quantization Aware Training Distribution Matching Low Bit Quantization Super Resolution Model

July 16, 2023

Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study
Peiyu Liu, Zikang Liu, Ze-Feng Gao, Dawei Gao, Wayne Xin Zhao, Yaliang Li, Bolin Ding, Ji-Rong Wen
Large Language Model Language Model Empirical Study Low Bit Quantization Low Bit Emergent Ability Quantization Model

May 21, 2023

Integer or Floating Point? New Outlooks for Low-Bit Quantization on Large Language Models
Yijia Zhang, Lingran Zhao, Shijie Cao, Wenqiang Wang, Ting Cao, Fan Yang, Mao Yang, Shanghang Zhang, Ningyi Xu
Quantization Technique Activation Quantization Low Bit Quantization Integer Arithmetic Floating Point Floating Point Quantization Floating Point Format

April 18, 2023

DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables
Darshan C. Ganji, Saad Ashfaq, Ehsan Saboori, Sudhakar Sah, Saptarshi Mitra, MohammadHossein AskariHemmat, Alexander Hoffman, Ahmed Hassanien, Mathieu Léonardon
Low Precision Low Bit Quantization Lookup Table

March 2, 2023

Ternary Quantization: A Survey
Dan Liu, Xue Liu
Timely Survey Model Quantization Low Bit Quantization Quantization Step Ternary Quantization

December 20, 2022

Redistribution of Weights and Activations for AdderNet Quantization
Ying Nie, Kai Han, Haikang Diao, Chuanjian Liu, Enhua Wu, Yunhe Wang
Balancing Weight Targeted Activation Penalty Low Bit Quantization P$ Norm Redistribution Mechanism Linear Quantization Adder Neural Network

December 14, 2022

Efficient Speech Representation Learning with Low-Bit Quantization
Ching-Feng Yeh, Wei-Ning Hsu, Paden Tomasello, Abdelrahman Mohamed
Model Compression Speech Representation Quantization Technique Low Bit Quantization

August 30, 2022

ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization
Cong Guo, Chen Zhang, Jingwen Leng, Zihan Liu, Fan Yang, Yunxin Liu, Minyi Guo, Yuhao Zhu
DNN Accelerator Low Bit Quantization Quantized Neural Network Dynamic Quantization Data Adaptation Ant Colony

July 18, 2022

Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low Bit Quantization and Runtime
Saad Ashfaq, MohammadHossein AskariHemmat, Sudhakar Sah, Ehsan Saboori, Olivier Mastropietro, Alexander Hoffman
Deep Learning Deep Learning Model Runtime Analysis Low Bit Quantization Deep Learning Inference Virtual ARM Tensorflow Lite

July 15, 2022

Low-bit Shift Network for End-to-End Spoken Language Understanding
Anderson R. Avila, Khalil Bibi, Rui Heng Yang, Xinlin Li, Chao Xing, Xiao Chen
Convolutional Neural Network Deep Neural Network Low Bit Quantization End to End Spoken Language Bit Weight Power of Two Quantization Bit Shift Network

July 12, 2022

Synergistic Self-supervised and Quantization Learning
Yun-Hao Cao, Peiqin Sun, Yechang Huang, Jianxin Wu, Shuchang Zhou
Self Supervised Learning Self Supervised Model Multiplier Free Quantization Low Bit Quantization Quantization Learning

June 21, 2022

QuantFace: Towards Lightweight Face Recognition by Synthetic Data Low-bit Quantization
Fadi Boutros, Naser Damer, Arjan Kuijper
Synthetic Face Face Recognition Model Low Bit Quantization Bit Quantization Lightweight Face