LLM Compression

LLM compression aims to reduce the substantial computational and memory demands of large language models (LLMs) while preserving their performance. Current research focuses on techniques like pruning, quantization, and low-rank decomposition, often applied to models such as LLaMA, exploring the trade-offs between compression ratios and accuracy across various downstream tasks and evaluating the impact on model safety and fairness. This field is crucial for enabling the deployment of LLMs on resource-constrained devices and improving their accessibility and efficiency in real-world applications.

Papers

October 2, 2023

Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications
Duc N. M Hoang, Minsik Cho, Thomas Merth, Mohammad Rastegari, Zhangyang Wang
Large Language Model Knowledge Based Efficient Inference Future Implication Experimental Study Inference Latency LLM Compression Dynamic Prompting

September 25, 2023

LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot Compression
Ayush Kaushal, Tejas Vaidhya, Irina Rish
Large Language Model Linear Compression Low Rank Decomposition Compressed Model LLM Compression

September 2, 2023

eDKM: An Efficient and Accurate Train-time Weight Clustering for Large Language Models
Minsik Cho, Keivan A. Vahid, Qichen Fu, Saurabh Adya, Carlo C Del Mundo, Mohammad Rastegari, Devang Naik, Peter Zatloukal
LLM Fine Tuning LLM Compression Hard Clustering

July 15, 2023

CPET: Effective Parameter-Efficient Tuning for Compressed Large Language Models
Weilin Zhao, Yuxiang Huang, Xu Han, Zhiyuan Liu, Zhengyan Zhang, Maosong Sun
Large Language Model Parameter Efficient Tuning LLM Compression

June 1, 2023

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han
Large Language Model Language Model Low Rate ACCELERATION Weight Quantization Activation Quantization LLM Compression Device LLM Bit Weight Quantization

May 17, 2023

Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt
Zhaozhuo Xu, Zirui Liu, Beidi Chen, Yuxin Tang, Jue Wang, Kaixiong Zhou, Xia Hu, Anshumali Shrivastava
Model Compression Style PROMPT LLM Inference Soft Prompt LLM Compression Prompt Transferability Accuracy Efficiency Trade