Quantization Aware Training

Quantization-aware training (QAT) aims to improve the efficiency of deep learning models by training them to operate directly with low-precision numerical representations (e.g., 4-bit or 8-bit integers), minimizing accuracy loss compared to full-precision models. Current research focuses on applying QAT to large language models (LLMs) and other resource-intensive architectures like transformers and diffusion models, exploring techniques like mixed-precision quantization, accumulator-aware quantization, and the use of novel quantization functions and regularization methods to enhance accuracy and stability. This work is significant because it enables the deployment of powerful deep learning models on resource-constrained devices, such as mobile phones and embedded systems, while also reducing energy consumption and computational costs.

Papers

February 5, 2024

Quantized Approximately Orthogonal Recurrent Neural Networks
Armand Foucault, Franck Mamalet, François Malgouyres
LSTM Network Quantization Aware Training Full Precision Orthogonal Recurrent Neural Network

January 19, 2024

A2Q+: Improving Accumulator-Aware Weight Quantization
Ian Colbert, Alessandro Pappalardo, Jakoba Petri-Koenig, Yaman Umuroglu
Pre Trained Quantization Aware Training Quantization Error Weight Quantization Layer Wise Quantization

December 10, 2023

FP8-BERT: Post-Training Quantization for Transformer
Jianwei Li, Tianchi Zhang, Ian En-Hsu Yen, Dongkuan Xu
Transformer Based BERT Model Ticket BERT Quantization Operator Quantization Aware Training BERT Variant 8 Bit Quantization

November 9, 2023

November 2, 2023

Effective Quantization for Diffusion Models on CPUs
Hanwen Chang, Haihao Shen, Yiyang Cai, Xinyu Ye, Zhenzhong Xu, Wenhua Cheng, Kaokao Lv, Weiwei Zhang, Yintong Lu, Heng Guo
Diffusion Model Deep Learning Model Image Quality Quantization Operator Quantization Aware Training

October 12, 2023

QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models
Jing Liu, Ruihao Gong, Xiuying Wei, Zhiwei Dong, Jianfei Cai, Bohan Zhuang
Post Training Quantization Quantization Aware Training Bitwidth Quantization

October 4, 2023

QuATON: Quantization Aware Training of Optical Neurons
Hasindu Kariyawasam, Ramith Hettiarachchi, Quansan Yang, Alex Matlock, Takahiro Nambara, Hiroyuki Kusaka, Yuichiro Kunai, Peter T C So, Edward S Boyden, Dushan Wadduwage
Quantization Aware Training Optical Processor Diffractive Network Optical Neuron

September 24, 2023

GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust Parameters of Unseen Limited Precision Neural Networks
Stone Yun, Alexander Wong
Quantization Aware Training Low Precision Graph Hypernetworks Quantization Robust Parameter

September 22, 2023

Poster: Self-Supervised Quantization-Aware Knowledge Distillation
Kaiqi Zhao, Ming Zhao
Self Supervised Quantization Operator Quantization Aware Training Visually Effective Poster Quantization Aware Knowledge Distillation Quantization Function

September 11, 2023

Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs
Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv, Yi Liu
Large Language Model Gradient Descent Quantization Operator Quantization Aware Training Weight Only Quantization Weight Optimization

August 15, 2023

Gradient-Based Post-Training Quantization: Challenging the Status Quo
Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
Quantization Operator Post Training Quantization Quantization Aware Training Chaotic Regime Quantization Step

August 14, 2023

Efficient Neural PDE-Solvers using Quantization Aware Training
Winfried van den Dool, Tijmen Blankevoort, Max Welling, Yuki M. Asano
Multiplier Free Quantization Quantization Aware Training Neural PDE Solver State of the Art Quantization

July 25, 2023

Overcoming Distribution Mismatch in Quantizing Image Super-Resolution Networks
Cheeun Hong, Kyoung Mu Lee
Super Resolution Image Super Resolution Quantization Aware Training Distribution Matching Low Bit Quantization Super Resolution Model

July 12, 2023

Self-Distilled Quantization: Achieving High Compression Rates in Transformer-Based Language Models
James O' Neill, Sourav Dutta
Multilingual Model Transformer Based Language Model Transformer Language Model Quantization Aware Training High Compression Multilingual Model XLM Quantization Aware Knowledge Distillation

July 10, 2023

QBitOpt: Fast and Accurate Bitwidth Reallocation during Training
Jorn Peters, Marios Fournarakis, Markus Nagel, Mart van Baalen, Tijmen Blankevoort
Training Data Quantization Aware Training Mixed Precision

July 1, 2023

Quantization Variation: A New Perspective on Training Transformers with Low-Bit Precision
Xijie Huang, Zhiqiang Shen, Pingcheng Dong, Kwang-Ting Cheng
Vision Transformer Quantization Aware Training Quantization Aware Knowledge Distillation Vision Transformer Quantization

June 30, 2023

Designing strong baselines for ternary neural network quantization through support and mass equalization
Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
Customer Service Strong Baseline Quantization Aware Training Quantization Error Ternary Neural Network Ternary Quantization Equalization Great

June 12, 2023

Efficient Quantization-aware Training with Adaptive Coreset Selection
Xijie Huang, Zechun Liu, Shih-Yang Liu, Kwang-Ting Cheng
Quantization Aware Training COreset Selection

June 4, 2023

Temporal Dynamic Quantization for Diffusion Models
Junhyuk So, Jungwon Lee, Daehyun Ahn, Hyungjun Kim, Eunhyeok Park
Diffusion Model Post Training Quantization Quantization Aware Training Quantization Technique Dynamic Quantization