Block Wise Pruning

Block-wise pruning is a model compression technique that removes entire blocks of weights from deep neural networks (DNNs) to reduce computational cost and memory footprint, primarily targeting resource-constrained environments like mobile devices. Current research focuses on improving the efficiency and accuracy of block selection algorithms, exploring various model architectures including convolutional neural networks (CNNs) and vision transformers (ViTs), and developing methods for handling unaligned blocks and integrating pruning with other optimization strategies like multi-dimensional pruning. This approach offers significant potential for accelerating DNN inference and reducing energy consumption in various applications, particularly in mobile and edge computing.

Papers

November 26, 2024

Scalable iterative pruning of large language and vision models using block coordinate descent
Gili Rosenberg, J. Kyle Brubaker, Martin J. A. Schuetz, Elton Yechao Zhu, Serdar Kadıoğlu, Sima E. Borujeni, Helmut G. Katzgraber
Vision Model Large Language Iterative Pruning Block Coordinate Descent Shot Pruning Block Wise Pruning

July 29, 2024

Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices
Hayun Lee, Dongkun Shin
Deep Neural Network Mobile Device Device AI Block Wise Pruning DNN Acceleration

July 2, 2024

LPViT: Low-Power Semi-structured Pruning for Vision Transformers
Kaixin Xu, Zhe Wang, Chunyun Chen, Xue Geng, Jie Lin, Mohamed M. Sabry Aly, Xulei Yang, Min Wu, Xiaoli Li, Weisi Lin
Vision Transformer Structured Pruning Block Sparsity ViT Architecture Block Wise Pruning

June 17, 2024

Multi-Dimensional Pruning: Joint Channel, Layer and Block Pruning with Latency Constraint
Xinglong Sun, Barath Lakshmanan, Maying Shen, Shiyi Lan, Jingde Chen, Jose Alvarez
3D Object Detection Multi Layer Model Latency Latency Constraint Block Wise Pruning

December 28, 2023

Block Pruning for Enhanced Efficiency in Convolutional Neural Networks
Cheng-En Wu, Azadeh Davoodi, Yu Hen Hu
Convolutional Neural Network Deep Neural Network High Efficiency Supervised ImageNet Network Pruning Resource Constrained Edge Block Wise Pruning

October 10, 2023

SUBP: Soft Uniform Block Pruning for 1xN Sparse CNNs Multithreading Acceleration
Jingyang Xiang, Siqi Li, Jun Chen, Shipeng Bai, Yukai Ma, Guang Dai, Yong Liu
Sparsity Increase Structured Sparsity High Sparsity Sparse Local Model Sparse CNN Block Wise Pruning

May 7, 2022

Automatic Block-wise Pruning with Auxiliary Gating Structures for Deep Convolutional Neural Networks
Zhaofeng Si, Honggang Qi, Xiaoyu Song
Convolutional Neural Network Deep Convolutional Neural Network Pruning Method Network Pruning Gating Mechanism Block Wise Pruning

Block Wise Pruning

Papers

Scalable iterative pruning of large language and vision models using block coordinate descent

Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices

LPViT: Low-Power Semi-structured Pruning for Vision Transformers

Multi-Dimensional Pruning: Joint Channel, Layer and Block Pruning with Latency Constraint

Block Pruning for Enhanced Efficiency in Convolutional Neural Networks

SUBP: Soft Uniform Block Pruning for 1xN Sparse CNNs Multithreading Acceleration

Automatic Block-wise Pruning with Auxiliary Gating Structures for Deep Convolutional Neural Networks