the latest in aiBeta

Ternary Quantization

Ternary quantization is a model compression technique that reduces the memory footprint and computational cost of deep neural networks by representing weights as only -1, 0, and 1. Current research focuses on improving the accuracy of ternary quantized models, particularly for vision transformers (ViTs) and large language models (LLMs), through techniques like optimized quantization algorithms (e.g., those leveraging residual error expansion or hyperspherical learning) and refined training methods (e.g., quantization-aware training). This research is significant because it enables the deployment of powerful deep learning models on resource-constrained devices, broadening the accessibility and applicability of AI across various domains.

10papers

Papers

April 18, 2025

The Binary and Ternary Quantization Can Improve Feature Discrimination
Weizhi Lu, Mingrui Chen, Weiyu Li
Ternary Quantization Quantization Error Binary Code Feature Detection

October 8, 2024

Accelerating Error Correction Code Transformers
Matan Levy, Yoni Choukroun, Lior Wolf
Transformer Based Decoder Ternary Quantization Low Precision Quantization

June 26, 2024

ViT-1.58b: Mobile Vision Transformers in the 1-bit Era
Zhengqing Yuan, Rong Zhou, Hongyi Wang, Lifang He, Yanfang Ye, Lichao Sun
New Era ImageNet 1k Vision Transformer Ternary Quantization Mobile Vision Transformer

November 27, 2023

PIPE : Parallelized Inference Through Post-Training Quantization Ensembling of Residual Expansions
Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
Ternary Quantization Product Quantization Residual Model High Performing 1D ConvNet Deep Neural Network Software Evolution Multiplier Free Quantization Scientific Inference

August 15, 2023

Ternary Singular Value Decomposition as a Better Parameterized Form in Linear Mapping
Boyu Chen, Hanxuan Chen, Jiao He, Fengyu Sun, Shangling Jui
Singular Value Decomposition Ternary Quantization Parameter Efficient Linear Mapping

June 30, 2023

Designing strong baselines for ternary neural network quantization through support and mass equalization
Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
Equalization Great Strong Baseline Customer Service Quantization Error Ternary Neural Network Quantization Aware Training Ternary Quantization

March 2, 2023

Ternary Quantization: A Survey
Dan Liu, Xue Liu
Ternary Quantization Model Quantization Quantization Step Timely Survey Low Bit Quantization

December 24, 2022

October 31, 2022

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh
Post Training Quantization Zero Shot Quantization Real Time Inference Transformer Megatron Decepticons Ternary Quantization Generative Question Pre Trained Transformer

March 28, 2022

REx: Data-Free Residual Quantization Error Expansion
Edouard Yvinec, Arnaud Dapgony, Matthieu Cord, Kevin Bailly
Multiplier Free Quantization Ternary Quantization Deep Neural Network Product Quantization High Performing 1D ConvNet Residual Quantization