Network Quantization

Network quantization aims to reduce the computational cost and memory footprint of deep neural networks by representing weights and activations using fewer bits, thereby enabling faster and more efficient inference on resource-constrained devices. Current research focuses on improving quantization techniques for various architectures, including convolutional neural networks (CNNs) and vision transformers (ViTs), exploring methods like quantization-aware training, post-training quantization, and data-free quantization to minimize accuracy loss during the compression process. These advancements are significant for deploying deep learning models on edge devices and mobile platforms, broadening the accessibility and applicability of AI in various domains.

Papers

November 21, 2024

Quantization without Tears
Minghao Fu, Hao Yu, Jie Shao, Junjie Zhou, Ke Zhu, Jianxin Wu
Quantization Operator Multiplier Free Quantization Quantization Technique Network Quantization Quantization Performance Image Quantization Tear Film

July 17, 2024

Toward INT4 Fixed-Point Training via Exploring Quantization Error for Gradients
Dohyung Kim, Junghyup Lee, Jeimin Jeon, Jaehyeon Moon, Bumsub Ham
Quantization Error Quantization Level Network Quantization Quantization Performance

December 17, 2023

Post-Training Quantization for Re-parameterization via Coarse & Fine Weight Splitting
Dawei Yang, Ning He, Xing Hu, Zhihang Yuan, Jiangyong Yu, Chen Xu, Zhe Jiang
Quantization Operator Multiplier Free Quantization Coarse to Fine Quantization Error Structural Re Parameterization Network Quantization Weight Decomposition

November 17, 2023

Is Conventional SNN Really Efficient? A Perspective from Network Quantization
Guobin Shen, Dongcheng Zhao, Tenglong Li, Jindong Li, Yi Zeng
High Efficiency Spiking Neural Network Visual Perspective Neuromorphic Datasets Synaptic Feedback Energy Efficient Neural Network Network Quantization

November 9, 2023

Reducing the Side-Effects of Oscillations in Training of Quantized YOLO Networks
Kartik Gupta, Akshay Asthana
Training Data Quantization Aware Training YOLO Model Non Converging Artificial Oscillation Side Effect Accurate Quantization Network Quantization

September 24, 2023

Causal-DFQ: Causality Guided Data-free Network Quantization
Yuzhang Shang, Bingxin Xu, Gaowen Liu, Ramana Kompella, Yan Yan
Data Free Quantization Network Quantization

July 20, 2023

Quantized Feature Distillation for Network Quantization
Ke Zhu, Yin-Yin He, Jianxin Wu
Vision Transformer Multiplier Free Quantization Feature Distillation Neural Network Quantization Network Quantization Quantization Aware Knowledge Distillation

May 14, 2023

MBQuant: A Novel Multi-Branch Topology Method for Arbitrary Bit-width Network Quantization
Yunshan Zhong, Yuyao Zhou, Fei Chao, Rongrong Ji
Topological Feature Low Bit Network Quantization Binary Activation Bit Width Quantization

March 24, 2023

Hard Sample Matters a Lot in Zero-Shot Quantization
Huantong Li, Xiangmiao Wu, Fanbing Lv, Daihai Liao, Thomas H. Li, Yonggang Zhang, Bo Han, Mingkui Tan
Deep Neural Network Hard Sample Zero Shot Quantization Pseudo Sample Network Quantization

October 26, 2022

Zero-Shot Learning of a Conditional Generative Adversarial Network for Data-Free Network Quantization
Yoojin Choi, Mostafa El-Khamy, Jungwon Lee
Zero Shot Learning Conditional Generative Adversarial Network Data Free Quantization Network Quantization Discriminative Pre

October 24, 2022

Weight Fixing Networks
Christopher Subia-Waud, Srinandan Dasmahapatra
Lossless Compression Network Quantization Encoding Layer

February 27, 2022

Arrhythmia Classifier Using Convolutional Neural Network with Adaptive Loss-aware Multi-bit Networks Quantization
Hanshi Sun, Ao Wang, Ninghao Pu, Zhiqing Li, Junguang Huang, Hao Liu, Zhi Qi
Deep Learning Convolutional Neural Network Wearable Device Adaptive Loss Arrhythmia Detection Network Quantization Arrhythmia Classification

February 10, 2022

F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization
Qing Jin, Jian Ren, Richard Zhuang, Sumant Hanumante, Zhengang Li, Zhiyu Chen, Yanzhi Wang, Kaiyuan Yang, Sergey Tulyakov
Fine Tuning Quantization Technique Neural Network Quantization Network Quantization Multiplication Task

December 1, 2021

Hardware-friendly Deep Learning by Network Quantization and Binarization
Haotong Qin
Deep Learning Deep Neural Network Quantization Operator Binarization Method Resource Constrained Device Network Quantization

November 27, 2021

FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer
Yang Lin, Tianyu Zhang, Peiqin Sun, Zheng Li, Shuchang Zhou
Convolutional Neural Network Vision Transformer Quantization Operator Network Quantization Vision Transformer Quantization

November 24, 2021

Sharpness-aware Quantization for Deep Neural Networks
Jing Liu, Jianfei Cai, Bohan Zhuang
Deep Neural Network Sharpness Aware Minimization Multiplier Free Quantization Uniform Quantization Network Quantization Sharpness Aware Quantization