Layer Precision

Layer precision, focusing on optimizing the numerical precision of individual layers within neural networks, aims to improve energy efficiency and computational speed without significant accuracy loss. Current research explores techniques like layer pruning, mixed-precision quantization (using algorithms such as EAGL and ALPS), and co-optimization of neural architecture and hardware parameters (e.g., in memristive crossbars), often applied to models such as ResNet, BERT, and VGG. These advancements are significant for deploying deep learning models on resource-constrained devices and accelerating inference, impacting both the efficiency of large-scale AI systems and the accessibility of AI to low-resource settings.

Papers

September 21, 2024

Towards Building Efficient Sentence BERT Models using Layer Pruning
Anushka Shelke, Riya Savant, Raviraj Joshi
Natural Language Inference BERT Model Sentence BERT Layer Pruning Layer Precision

March 30, 2023

XPert: Peripheral Circuit & Neural Architecture Co-search for Area and Energy-efficient Xbar-based Computing
Abhishek Moitra, Abhiroop Bhattacharjee, Youngeun Kim, Priyadarshini Panda
Deep Neural Network Neural Architecture Search DNN Architecture Memory Computing Area Usage Crossbar Array Biological Circuit Course Specific Context Layer Precision

January 30, 2023

Efficient and Effective Methods for Mixed Precision Neural Network Quantization for Faster, Energy-efficient Inference
Deepika Bablani, Jeffrey L. Mckinstry, Steven K. Esser, Rathinakumar Appuswamy, Dharmendra S. Modha
High Efficiency Mixed Precision Quantization Effective Method Faster Pace Energy Efficient Inference Layer Precision

August 11, 2022

Mixed-Precision Neural Networks: A Survey
Mariam Rakka, Mohammed E. Fouda, Pramod Khargonekar, Fadi Kurdahi
Timely Survey Quantization Technique Mixed Precision Layer Precision

January 5, 2022

Gradient-based Bit Encoding Optimization for Noise-Robust Binary Memristive Crossbar
Youngeun Kim, Hyunsoo Kim, Seijoon Kim, Sang Joon Kim, Priyadarshini Panda
Noise Robustness Binary Spike Memristive Crossbar Gradient Coding Layer Precision

Layer Precision

Papers

Towards Building Efficient Sentence BERT Models using Layer Pruning

XPert: Peripheral Circuit & Neural Architecture Co-search for Area and Energy-efficient Xbar-based Computing

Efficient and Effective Methods for Mixed Precision Neural Network Quantization for Faster, Energy-efficient Inference

Mixed-Precision Neural Networks: A Survey

Gradient-based Bit Encoding Optimization for Noise-Robust Binary Memristive Crossbar