Quantization Error

Quantization error arises from representing continuous-valued data (e.g., neural network weights and activations) using a limited number of bits, impacting model accuracy and efficiency. Current research focuses on mitigating this error in large language models (LLMs) and vision transformers (ViTs), employing techniques like post-training quantization, quantization-aware training, and the development of novel quantization algorithms (e.g., those incorporating learned rotations or adaptive clipping). Reducing quantization error is crucial for deploying large models on resource-constrained devices, improving energy efficiency, and enabling wider accessibility of advanced AI applications.

Papers

August 24, 2023

Quantized distributed Nash equilibrium seeking under DoS attacks: A quantized consensus based approach
Shuai Feng, Maojiao Ye, Lihua Xie, Shengyuan Xu
Constructive Approach Nash Equilibrium Multiplier Free Quantization Consensus Group Decision Quantization Error Quantization Step Denial of Service Attack

August 13, 2023

RMP-Loss: Regularizing Membrane Potential Distribution for Spiking Neural Networks
Yufei Guo, Xiaode Liu, Yuanpei Chen, Liwen Zhang, Weihang Peng, Yuhan Zhang, Xuhui Huang, Zhe Ma
Neural Network Spiking Neural Network Full Potential Quantization Error Quantization Step Soft Membrane Membrane Potential

August 1, 2023

Asynchronous Federated Learning with Bidirectional Quantized Communications and Buffered Aggregation
Tomas Ortega, Hamid Jafarkhani
Asynchronous Federated Learning Quantization Error Asynchronous Aggregation

July 11, 2023

Mixed-Precision Quantization with Cross-Layer Dependencies
Zihao Deng, Xin Wang, Sayeh Sharify, Michael Orshansky
Mixed Precision Quantization Quantization Error Layer Wise Quantization Precision Quantization

June 30, 2023

Designing strong baselines for ternary neural network quantization through support and mass equalization
Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
Customer Service Strong Baseline Quantization Aware Training Quantization Error Ternary Neural Network Ternary Quantization Equalization Great

June 5, 2023

SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
Tim Dettmers, Ruslan Svirschevski, Vage Egiazarian, Denis Kuznedelev, Elias Frantar, Saleh Ashkboos, Alexander Borzunov, Torsten Hoefler, Dan Alistarh
Large Language Model Quantization Error Accuracy Loss

May 30, 2023

PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language Models
Zhuocheng Gong, Jiahao Liu, Qifan Wang, Yang Yang, Jingang Wang, Wei Wu, Yunsen Xian, Dongyan Zhao, Rui Yan
Pre Trained Language Model Quantization Operator Quantization Aware Training Quantization Error Transformer Based Pre Trained Language Different Quantization

April 26, 2023

Guaranteed Quantization Error Computation for Neural Network Model Compression
Wesley Cooke, Zihao Mo, Weiming Xiang
Deep Neural Network Multiplier Free Quantization Neural Network Compression Quantization Error

March 10, 2023

QVRF: A Quantization-error-aware Variable Rate Framework for Learned Image Compression
Kedeng Tong, Yaojun Wu, Yue Li, Kai Zhang, Li Zhang, Xin Jin
Learned Image Compression Quantization Error Variable Rate

December 21, 2022

Automatic Network Adaptation for Ultra-Low Uniform-Precision Quantization
Seongmin Park, Beomseok Kwon, Jieun Lim, Kyuyoung Sim, Tae-Ho Kim, Jungwook Choi
Quantization Error Adaptive Network Neural Network Quantization Precision Quantization

December 11, 2022

Error-aware Quantization through Noise Tempering
Zheng Wang, Juncheng B Li, Shuhui Qu, Florian Metze, Emma Strubell
Quantization Operator Quantization Aware Training Quantization Error Quantization Noise

December 6, 2022

QEBVerif: Quantization Error Bound Verification of Neural Networks
Yedi Zhang, Fu Song, Jun Sun
Neural Network Deep Neural Network Multiplier Free Quantization Quantization Error

November 30, 2022

Quadapter: Adapter for GPT-2 Quantization
Minseop Park, Jaeseong You, Markus Nagel, Simyung Chang
Language Model Transformer Language Model Quantization Aware Training Quantization Error Long Short Range Adapter Quantization Performance

November 8, 2022

Quantization-Based Optimization: Alternative Stochastic Approximation of Global Optimization
Jinwuk Seok, Chang Sik Cho
Optimization Purpose Global Optimization Stochastic Approximation Quantization Error NP Hard

October 17, 2022

ODG-Q: Robust Quantization via Online Domain Generalization
Chaofan Tao, Ngai Wong
Adversarial Attack Domain Generalization Quantization Error Quantization Robust Parameter

October 7, 2022

A Closer Look at Hardware-Friendly Weight Quantization
Sungmin Bae, Piotr Zielinski, Satrajit Chatterjee
Glance Annotation Quantization Error Weight Quantization Heterogeneous Quantization

August 25, 2022

Efficient Adaptive Activation Rounding for Post-Training Quantization
Zhengyi Li, Cong Guo, Zhanda Zhu, Yangjie Zhou, Yuxian Qiu, Xiaotian Gao, Jingwen Leng, Minyi Guo
Post Training Quantization Quantization Error Weight Quantization Activation Quantization Adaptive Activation

July 31, 2022

Symmetry Regularization and Saturating Nonlinearity for Robust Quantization
Sein Park, Yeongsang Jang, Eunhyeok Park
Native Robustness Post Training Quantization Quantization Aware Training Quantization Error Saturation Effect Learned Symmetry Quantization Robust Parameter

June 15, 2022

Edge Inference with Fully Differentiable Quantized Mixed Precision Neural Networks
Clemens JS Schaefer, Siddharth Joshi, Shan Li, Raul Blazquez
Quantization Technique Quantization Error Closed Form Differentiable Expression Mixed Precision Edge Inference Quantization Learning Heterogeneous Quantization

March 31, 2022

It's All In the Teacher: Zero-Shot Quantization Brought Closer to the Teacher
Kanghyun Choi, Hye Yoon Lee, Deokki Hong, Joonsang Yu, Noseong Park, Youngsok Kim, Jinho Lee
Quantization Operator Cross Entropy Loss Good Teacher Quantization Error Zero Shot Quantization