LLM Quantization

LLM quantization aims to reduce the substantial memory and computational demands of large language models (LLMs) by representing their weights and activations using lower precision numbers. Current research focuses on developing efficient quantization algorithms, including techniques like post-training quantization (PTQ) with methods such as vector quantization and layer-wise quantization with varying bit-widths, often incorporating adaptive strategies to minimize performance loss. These advancements are crucial for deploying LLMs on resource-constrained devices and improving the efficiency of LLM inference, impacting both the accessibility of large language models and the sustainability of AI infrastructure.

Papers

February 6, 2024

QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks
Albert Tseng, Jerry Chee, Qingyao Sun, Volodymyr Kuleshov, Christopher De Sa
Post Training Quantization Vector Quantization Codebook Learning LLM Quantization Hadamard Layer Incoherence Processing

November 16, 2023

How Does Calibration Data Affect the Post-training Pruning and Quantization of Large Language Models?
Miles Williams, Nikolaos Aletras
Large Language Model Model Compression Quantization Operator LLM Quantization Calibration Data

November 3, 2023

AFPQ: Asymmetric Floating Point Quantization for LLMs
Yijia Zhang, Sicheng Zhang, Shijie Cao, Dayou Du, Jianyu Wei, Ting Cao, Ningyi Xu
Large Language Model Information Asymmetry LLM Quantization Floating Point Quantization Bit Weight Quantization

October 29, 2023

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving
Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci
High Efficiency Activation Quantization Low Bit Quantization LLM Quantization Single Atom LLM Accuracy Fine Grained Quantization

October 8, 2023

Revisiting Block-based Quantisation: What is Important for Sub-8-bit LLM Inference?
Cheng Zhang, Jianyi Cheng, Ilia Shumailov, George A. Constantinides, Yiren Zhao
Large Language Model LLM Quantization Quantization Granularity 8 Bit Quantization

August 16, 2023

FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs
Young Jin Kim, Rawn Henry, Raffy Fahim, Hany Hassan Awadalla
Large Language Model Fine Grained Enhancing Efficiency Dense Model LLM Quantization Weight Only Quantization Auto Regressive Decoding

July 25, 2023

QuIP: 2-Bit Quantization of Large Language Models With Guarantees
Jerry Chee, Yaohui Cai, Volodymyr Kuleshov, Christopher De Sa
Large Language Model Quantization Operator Formal Guarantee LLM Quantization Parameter Quantization Incoherence Processing

May 23, 2023

QLoRA: Efficient Finetuning of Quantized LLMs
Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer
Fine Tuning Small Datasets LLM Quantization Finetuning Method Conversational Search Benchmark Bit Training

February 2, 2023

QCM-SGM+: Improved Quantized Compressed Sensing With Score-Based Generative Models
Xiangming Meng, Yoshiyuki Kabashima
Score Based Generative Compressed Sensing LLM Quantization

LLM Quantization

Papers

QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks

How Does Calibration Data Affect the Post-training Pruning and Quantization of Large Language Models?

AFPQ: Asymmetric Floating Point Quantization for LLMs

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

Revisiting Block-based Quantisation: What is Important for Sub-8-bit LLM Inference?

FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs

QuIP: 2-Bit Quantization of Large Language Models With Guarantees

QLoRA: Efficient Finetuning of Quantized LLMs

QCM-SGM+: Improved Quantized Compressed Sensing With Score-Based Generative Models