Pruning Quantization

Pruning quantization is a model compression technique aiming to reduce the size and computational cost of deep neural networks (DNNs) while preserving accuracy. Current research focuses on developing efficient algorithms that jointly optimize pruning (removing less important connections) and quantization (reducing the precision of weights and activations), often employing reinforcement learning or physics-inspired criteria to find optimal configurations across different DNN architectures like ResNet and MobileNet. This work is significant because it enables deploying sophisticated DNNs on resource-constrained devices, improving energy efficiency and reducing inference latency for applications ranging from mobile computing to embedded systems.

Papers

October 12, 2024

SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs
Mohammad Mozaffari, Maryam Mehri Dehnavi
Large Language Model Sparse Representation Quantization Aware Training Low Rank Approximation Semantic Map Pruning Quantization

December 23, 2023

Hardware-Aware DNN Compression via Diverse Pruning and Mixed-Precision Quantization
Konstantinos Balaskas, Andreas Karatzas, Christos Sad, Kostas Siozios, Iraklis Anagnostopoulos, Georgios Zervakis, Jörg Henkel
Deep Neural Network DNN Accelerator Mixed Precision Quantization DNN Architecture Energy Efficient Inference DNN Compression Hierarchical Pruning Pruning Quantization

December 1, 2023

Physics Inspired Criterion for Pruning-Quantization Joint Learning
Weiying Xie, Xiaoyi Fan, Xin Zhang, Yunsong Li, Jie Lei, Leyuan Fang
Joint Learning Multiplier Free Quantization Bitwidth Quantization Pruning Quantization

May 23, 2022

OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization
Peng Hu, Xi Peng, Hongyuan Zhu, Mohamed M. Sabry Aly, Jie Lin
Deep Neural Network Compression Scheme Multi Codebook Pruning Quantization

Pruning Quantization

Papers

SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs

Hardware-Aware DNN Compression via Diverse Pruning and Mixed-Precision Quantization

Physics Inspired Criterion for Pruning-Quantization Joint Learning

OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization