Weight Quantization

Weight quantization is a model compression technique aiming to reduce the memory footprint and computational cost of deep neural networks by representing weights with lower precision (e.g., 2-bit, 4-bit integers instead of 32-bit floats). Current research focuses on developing quantization methods for various architectures, including large language models (LLMs), vision transformers (ViTs), and spiking neural networks (SNNs), often employing techniques like knowledge distillation, activation quantization, and loss-aware training to mitigate accuracy loss. This research is significant because efficient model compression is crucial for deploying large models on resource-constrained devices and reducing the environmental impact of AI, impacting both the efficiency of AI systems and their accessibility.

Papers

November 17, 2022

CPT-V: A Contrastive Approach to Post-Training Quantization of Vision Transformers
Natalia Frumkin, Dibakar Gope, Diana Marculescu
Vision Transformer Loss Function Contrastive Loss Quantization Operator Post Training Quantization Contrastive Method Weight Quantization Quantization Scale

October 31, 2022

Model Compression for DNN-based Speaker Verification Using Weight Quantization
Jingyu Li, Wei Liu, Zhaoyang Zhang, Jiong Wang, Tan Lee
Speaker Verification Model Compression Weight Quantization Layer Weight Bitwidth Quantization

October 7, 2022

A Closer Look at Hardware-Friendly Weight Quantization
Sungmin Bae, Piotr Zielinski, Satrajit Chatterjee
Glance Annotation Quantization Error Weight Quantization Heterogeneous Quantization

August 25, 2022

Efficient Adaptive Activation Rounding for Post-Training Quantization
Zhengyi Li, Cong Guo, Zhanda Zhu, Yangjie Zhou, Yuxian Qiu, Xiaotian Gao, Jingwen Leng, Minyi Guo
Post Training Quantization Quantization Error Weight Quantization Activation Quantization Adaptive Activation

June 24, 2022

QReg: On Regularization Effects of Quantization
MohammadHossein AskariHemmat, Reyhane Askari Hemmat, Alex Hoffman, Ivan Lazarevich, Ehsan Saboori, Olivier Mastropietro, Sudhakar Sah, Yvon Savaria, Jean-Pierre David
Quantization Operator Multiplier Free Quantization Weight Quantization DNN Training Quantization Level Regularization Effect

March 7, 2022

ZippyPoint: Fast Interest Point Detection, Description, and Matching through Mixed Precision Discretization
Menelaos Kanakis, Simon Maurer, Matteo Spallanzani, Ajad Chhatkuli, Luc Van Gool
Description Library Weight Quantization Visual Relocalization Descriptor Extraction Binary Descriptor

January 15, 2022

UDC: Unified DNAS for Compressible TinyML Models
Igor Fedorov, Ramon Matas, Hokchhay Tann, Chuteng Zhou, Matthew Mattina, Paul Whatmough
Neural Network Model Compression TinyML Model Weight Quantization DNA Related Bioinformatics Domain Processing Unit