Neural Network Compression

Neural network compression aims to reduce the size and computational cost of deep learning models without significant performance loss. Current research focuses on techniques like pruning (removing less important connections), quantization (reducing the precision of weights), knowledge distillation (transferring knowledge from a larger model), and tensor decomposition (factorizing weight matrices), often applied to convolutional neural networks, recurrent neural networks, and transformers. These methods are crucial for deploying large models on resource-constrained devices like mobile phones and embedded systems, enabling broader applications in areas such as real-time image processing, autonomous driving, and medical image analysis. The development of efficient compression algorithms is driving progress in both the theoretical understanding of deep learning and its practical deployment across diverse fields.

Papers

January 31, 2024

EPSD: Early Pruning with Self-Distillation for Efficient Model Compression
Dong Chen, Ning Liu, Yichen Zhu, Zhengping Che, Rui Ma, Fachao Zhang, Xiaofeng Mou, Yi Chang, Jian Tang
Knowledge Distillation Model Compression Edge Pruning Self Distillation Pruning Method Neural Network Compression

January 29, 2024

TQCompressor: improving tensor decomposition methods in neural networks via permutations
V. Abronin, A. Naumov, D. Mazur, D. Bystrov, K. Tsarova, Ar. Melnikov, I. Oseledets, S. Dolgov, R. Brasher, M. Perelshtein
Neural Network Neural Network Compression Machine Permutation Tensor Decomposition Method

December 13, 2023

Balanced and Deterministic Weight-sharing Helps Network Performance
Oscar Chang, Hod Lipson
Neural Network Compression Balanced Approach Weight Sharing Hash Learning

October 24, 2023

ABKD: Graph Neural Network Compression with Attention-Based Knowledge Distillation
Anshul Ahluwalia, Rohit Das, Payman Behnam, Alind Khare, Pan Li, Alexey Tumanov
Graph Neural Network Knowledge Distillation GNN Model Neural Network Compression Attention Based Knowledge Distillation

October 9, 2023

Grokking as Compression: A Nonlinear Complexity Perspective
Ziming Liu, Ziqian Zhong, Max Tegmark
Strong Generalization Linear Compression Neural Network Compression Model Complexity Grokking Phenomenon Kolmogorov Complexity Complexity Theory

August 13, 2023

A Survey on Deep Neural Network Pruning-Taxonomy, Comparison, Analysis, and Recommendations
Hongrong Cheng, Miao Zhang, Javen Qinfeng Shi
Neural Network Timely Survey General Analysis Consistent Comparison Movie Recommendation Pruning Method Neural Network Compression Recent Large Language Model

August 2, 2023

Survey on Computer Vision Techniques for Internet-of-Things Devices
Ishmeet Kaur, Adwaita Janardhan Jadhav
Deep Neural Network Timely Survey Internet of Thing Device Energy Efficient Neural Network Compression Transformer Based Deep

June 20, 2023

Inshrinkerator: Compressing Deep Learning Training Checkpoints via Dynamic Quantization
Amey Agrawal, Sameer Reddy, Satwik Bhattamishra, Venkata Prabhakara Sarath Nookala, Vidushi Vashishth, Kexin Rong, Alexey Tumanov
Pre Trained Model Compression Neural Network Compression Dynamic Quantization Fault Aware Delta Compression

June 15, 2023

Neural Network Compression using Binarization and Few Full-Precision Weights
Franco Maria Nardini, Cosimo Rulli, Salvatore Trani, Rossano Venturini
Model Compression Quantization Operator Neural Network Compression Binarization Method Binary Network

June 13, 2023

Implicit Compressibility of Overparametrized Neural Networks Trained with Heavy-Tailed SGD
Yijun Wan, Melih Barsbey, Abdellatif Zaidi, Umut Simsekli
Neural Network Stochastic Gradient Descent Neural Network Compression Implicit Neural Heavy Tailed Noise

June 12, 2023

Deep Model Compression Also Helps Models Capture Ambiguity
Hancheol Park, Jong C. Park
Language Understanding Neural Network Compression Natural Language Understanding Opinion Distribution

June 9, 2023

May 18, 2023

Evaluation Metrics for DNNs Compression
Abanoub Ghobrial, Samuel Budgett, Dieter Balemans, Hamid Asgari, Phil Reiter, Kerstin Eder
Evaluation Metric Linear Compression Compression Technique Neural Network Compression DNN Compression Overall Compression

May 9, 2023

How Informative is the Approximation Error from Tensor Decomposition for Neural Network Compression?
Jetze T. Schuurmans, Kim Batselier, Julian F. P. Kooij
Linear Compression Tensor Decomposition Neural Network Compression Tensor Decomposition Method Approximation Error Stagewise Decomposition

April 26, 2023

Guaranteed Quantization Error Computation for Neural Network Model Compression
Wesley Cooke, Zihao Mo, Weiming Xiang
Deep Neural Network Multiplier Free Quantization Neural Network Compression Quantization Error

March 15, 2023

The Tiny Time-series Transformer: Low-latency High-throughput Classification of Astronomical Transients using Deep Model Compression
Tarek Allam, Julien Peloton, Jason D. McEwen
Time Series Large Scale Neural Network Compression Fast Classification Astronomical Transient Transient Histogram Real Time Classification

March 3, 2023

Rotation Invariant Quantization for Model Compression
Joseph Kampeas, Yury Nahshan, Hanoch Kremer, Gil Lederman, Shira Zaloshinski, Zheng Li, Emir Haleva
Model Compression Neural Network Compression Mixed Precision Quantization Rate Distortion

January 30, 2023

Self-Compressing Neural Networks
Szabolcs Cséfalvay, James Imber
Neural Network Efficient Training Neural Network Compression High Compression Point Wise Weight

January 28, 2023

Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic Programming
Jinuk Kim, Yeonwoo Jeong, Deokjae Lee, Hyun Oh Song
Convolution Layer Neural Network Compression Convolution Operation Continuous Convolution Deep Compression Convolutional Counterpart