Lossless Acceleration

Lossless acceleration aims to significantly speed up large language model (LLM) inference without sacrificing output quality. Current research focuses on techniques like speculative decoding (using faster, draft models followed by verification), adaptive sparse attention mechanisms, and parallel decoding strategies (generating multiple tokens concurrently). These advancements are crucial for deploying LLMs in resource-constrained environments and improving the efficiency of various applications, including long-context generation and real-time conversational AI.

Papers

June 17, 2024

SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention
Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Xiuhong Li, Guanyu Feng, Xin Lv, Huanqi Cao, Xiao Chuanfu, Xingcheng Zhang, Dahua Lin, Chao Yang
Large Language Model Sparse Attention Long Context LLM Lossless Acceleration Sparse Pattern

June 6, 2024

Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism
Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai
Large Language Model LLM Inference Thompson Sampling Speculative Decoding Token Generation Auto Regressive Decoding Lossless Acceleration

April 18, 2024

TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding
Hanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen
Long Sequence Speculative Decoding Key Value Cache Neural Network Inference Lossless Acceleration

April 10, 2024

Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding
Jie Ou, Yueming Chen, Wenhong Tian
Large Language Model Inference Latency N Gram Parallel Decoding Lossless Acceleration

January 23, 2024

BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models
Feng Lin, Hanling Yi, Hongbin Li, Yifan Yang, Xiaotian Yu, Guangming Lu, Rong Xiao
Large Language Model Autoregressive Generation Lossless Acceleration

August 21, 2023

Dataset Quantization
Daquan Zhou, Kai Wang, Jianyang Gu, Xiangyu Peng, Dongze Lian, Yifan Zhang, Yang You, Jiashi Feng
Deep Neural Network Dataset Distillation Lossless Acceleration Dataset Quantization

April 10, 2023

Inference with Reference: Lossless Acceleration of Large Language Models
Nan Yang, Tao Ge, Liang Wang, Binxing Jiao, Daxin Jiang, Linjun Yang, Rangan Majumder, Furu Wei
Large Language Model Scientific Inference Higher Quality Reference Multi Turn Conversation Lossless Acceleration DaG LLM

March 8, 2023

InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning
Ziheng Qin, Kai Wang, Zangwei Zheng, Jianyang Gu, Xiangyu Peng, Zhaopan Xu, Daquan Zhou, Lei Shang, Baigui Sun, Xuansong Xie, Yang You
Data Pruning Lossless Acceleration

May 20, 2022

Lossless Acceleration for Seq2seq Generation with Aggressive Decoding
Tao Ge, Heming Xia, Xin Sun, Si-Qing Chen, Furu Wei
Lossless Acceleration Seq2seq Generation