Activation Quantization

Activation quantization aims to reduce the memory footprint and computational cost of large neural networks, particularly large language models (LLMs) and vision transformers (ViTs), by representing activations with fewer bits without significant accuracy loss. Current research focuses on mitigating the negative effects of outlier activations through techniques like rotation, outlier preservation, and channel-wise quantization, often in conjunction with weight quantization and parameter-efficient fine-tuning methods such as LoRA. These advancements are crucial for deploying increasingly complex models on resource-constrained devices and improving the efficiency of large-scale model training and inference.

Papers

May 24, 2024

BiSup: Bidirectional Quantization Error Suppression for Large Language Models
Minghui Zou, Ronghui Guo, Sai Zhang, Xiaowang Zhang, Zhiyong Feng
Quantization Error Activation Quantization Weight Only Quantization Mixed Quantization

May 23, 2024

Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs
Jaewoo Yang, Hayun Kim, Younghoon Kim
Quantization Error Activation Quantization Neural Spike

April 4, 2024

Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization
Aniruddha Nrusimha, Mayank Mishra, Naigang Wang, Dan Alistarh, Rameswar Panda, Yoon Kim
Large Language Model Global Impact Post Training Quantization Quantization Aware Training Activation Quantization Accurate Quantization Task Specific Channel Input Quantization

February 19, 2024

WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More
Yuxuan Yue, Zhihang Yuan, Haojie Duanmu, Sifan Zhou, Jianlong Wu, Liqiang Nie
Large Language Model Activation Quantization Weight Only Quantization Different Quantization

December 9, 2023

Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge
Xuan Shen, Peiyan Dong, Lei Lu, Zhenglun Kong, Zhengang Li, Ming Lin, Chao Wu, Yanzhi Wang
Large Language Model Language Model Extreme Edge Fast Inference Activation Quantization Weight Only Quantization

November 9, 2023

Enhancing Computation Efficiency in Large Language Models through Weight and Activation Quantization
Jangwhan Lee, Minsoo Kim, Seungcheol Baek, Seok Joong Hwang, Wonyong Sung, Jungwook Choi
Post Training Quantization Multiplier Free Quantization Computational Efficiency Activation Quantization Weight Update Weight Only Quantization W4A8 Quantization

November 2, 2023

AWEQ: Post-Training Quantization with Activation-Weight Equalization for Large Language Models
Baisong Li, Xingwang Wang, Haixiao Xu
Quantization Operator Quantization Error Weight Quantization Activation Quantization Low Bit Quantization

October 29, 2023

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving
Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
High Efficiency Activation Quantization Low Bit Quantization LLM Quantization Single Atom LLM Accuracy Fine Grained Quantization

October 25, 2023

LLM-FP4: 4-Bit Floating-Point Quantized Transformers
Shih-yang Liu, Zechun Liu, Xijie Huang, Pingcheng Dong, Kwang-Ting Cheng
Post Training Quantization Activation Quantization Integer Quantization Quantized Transformer Floating Point Quantization

October 7, 2023

Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM
Luoming Zhang, Wen Fei, Weijia Wu, Yefei He, Zhenyu Lou, Hong Zhou
Medical LLM Activation Quantization Fine Grained Quantization

August 25, 2023

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models
Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo
Large Language Model Quantization Operator Activation Quantization Post Training Different Quantization

July 1, 2023

Q-YOLO: Efficient Inference for Real-time Object Detection
Mingze Wang, Huixin Sun, Jun Shi, Xuhui Liu, Baochang Zhang, Xianbin Cao
Object Detection Model Efficient Inference Real Time Object Activation Quantization

June 1, 2023

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han
Large Language Model Language Model Low Rate ACCELERATION Weight Quantization Activation Quantization LLM Compression Device LLM Bit Weight Quantization

May 21, 2023

Integer or Floating Point? New Outlooks for Low-Bit Quantization on Large Language Models
Yijia Zhang, Lingran Zhao, Shijie Cao, Wenqiang Wang, Ting Cao, Fan Yang, Mao Yang, Shanghang Zhang, Ningyi Xu
Quantization Technique Activation Quantization Low Bit Quantization Floating Point Integer Arithmetic Floating Point Quantization Floating Point Format

March 15, 2023

ZeroQuant-V2: Exploring Post-training Quantization in LLMs from Comprehensive Study to Low Rank Compensation
Zhewei Yao, Xiaoxia Wu, Cheng Li, Stephen Youn, Yuxiong He
Large Language Model Low Rank Post Training Quantization Comprehensive Study Weight Quantization Activation Quantization

December 2, 2022

Device Interoperability for Learned Image Compression with Weights and Activations Quantization
Esin Koyuncu, Timofey Solovyev, Elena Alshina, André Kaup
Image Compression Balancing Weight Learned Image Compression Activation Quantization Sensor Interoperability Encoding Scheme Image Codecs

November 29, 2022

NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization for Vision Transformers
Yijiang Liu, Huanrui Yang, Zhen Dong, Kurt Keutzer, Li Du, Shanghang Zhang
Vision Transformer Post Training Quantization Activation Quantization

October 16, 2022

FIT: A Metric for Model Sensitivity
Ben Zandonati, Adrian Alan Pol, Maurizio Pierini, Olya Sirkin, Tal Kopetz
Model Compression Multiplier Free Quantization North Star Metric Activation Quantization Better FiT Model Sensitivity Low Precision Representation

September 30, 2022

Convolutional Neural Networks Quantization with Attention
Binyi Wu, Bernd Waschneck, Christian Georg Mayr
Deep Convolutional Neural Network Human Attention Direct Convolution Activation Quantization

August 25, 2022

Efficient Adaptive Activation Rounding for Post-Training Quantization
Zhengyi Li, Cong Guo, Zhanda Zhu, Yangjie Zhou, Yuxian Qiu, Xiaotian Gao, Jingwen Leng, Minyi Guo
Post Training Quantization Quantization Error Weight Quantization Activation Quantization Adaptive Activation