Inference Latency

Inference latency, the time taken for a model to produce an output, is a critical bottleneck in deploying large language models (LLMs) and other deep learning models, particularly for real-time applications. Current research focuses on optimizing inference speed through techniques like speculative decoding (using faster "draft" models to predict outputs before verification), early exiting (stopping computation early if confidence is high), and model compression methods such as pruning, quantization, and knowledge distillation. Reducing inference latency is crucial for expanding the practical applications of these powerful models, enabling their use in resource-constrained environments and improving user experience in interactive systems.

Papers

August 15, 2024

KOALA: Enhancing Speculative Decoding for LLM via Multi-Layer Draft Heads with Adversarial Learning
Kaiqi Zhang, Jing Zhao, Rui Chen
Medical LLM Adversarial Learning Speculative Decoding Inference Latency Non Autoregressive Adversarial Discriminator

August 9, 2024

rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA
Mohammad Mehdi Rahimifar, Hamza Ezzaoui Rahali, Audrey C. Therrien
Machine Learning Model Field Programmable Gate Array Neural Network Architecture Inference Latency Resource Utilization High Level Synthesis VIS4ML Research

August 5, 2024

An approach to optimize inference of the DIART speaker diarization pipeline
Roman Aperdannier, Sigurd Schacht, Alexander Piazza
Constructive Approach Scientific Inference Speaker Diarization Inference Latency Diarization Result

July 25, 2024

S2-Attention: Hardware-Aware Context Sharding Among Attention Heads
Xihui Lin, Yunan Zhang, Suyu Ge, Liliang Ren, Barun Patra, Vishrav Chaudhary, Hao Peng, Xia Song
Heterogeneous Graph Inference Latency Attention Head Inference Framework LLM Training Inference Engine

July 19, 2024

Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference
Joyjit Kundu, Wenzhe Guo, Ali BanaGozar, Udari De Alwis, Sourav Sengupta, Puneet Gupta, Arindam Mallik
Large Language Model Scientific Inference Inference Latency Performance Prediction Large Language Model Training Performance Bottleneck Performance Model Workload Estimation

July 2, 2024

MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention
Huiqiang Jiang, Yucheng Li, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Zhenhua Han, Amir H. Abdi, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu
Large Language Model Sparse Attention Inference Latency Coreference Information Long Context LLM Long Sequence Processing

June 26, 2024

SEED: Accelerating Reasoning Tree Construction via Scheduled Speculative Decoding
Zhenglin Wang, Jialong Wu, Yilong Lai, Congzhi Zhang, Deyu Zhou
Efficient Inference Speculative Decoding Inference Latency Reasoning Datasets Seed Nanopriming Tree Structure Reasoning schEmA

June 20, 2024

Optimizing Speculative Decoding for Serving Large Language Models Using Goodput
Xiaoxuan Liu, Cade Daniel, Langxiang Hu, Woosuk Kwon, Zhuohan Li, Xiangxi Mo, Alvin Cheung, Zhijie Deng, Ion Stoica, Hao Zhang
Large Language Model Structured Output Speculative Decoding Inference Latency Speculative Execution Speculative Exploration

June 18, 2024

Fast and Slow Generating: An Empirical Study on Large and Small Language Models Collaborative Decoding
Kaiyan Zhang, Jianyu Wang, Ning Ding, Biqing Qi, Ermo Hua, Xingtai Lv, Bowen Zhou
Language Model Empirical Study Inference Latency Contrastive Decoding Consistent Generation

June 16, 2024

Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference
Jiaming Tang, Yilong Zhao, Kan Zhu, Guangxuan Xiao, Baris Kasikci, Song Han
Self Attention Inference Latency Long Context Large Language Model KV Cache Long Context LLM QueST Sparsity Aware

May 30, 2024

SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths
Kaixuan Huang, Xudong Guo, Mengdi Wang
Large Language Model Speculative Decoding Inference Latency Length Constraint Draft Model

May 28, 2024

LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design
Rui Kong, Qiyang Li, Xinyu Fang, Qingtian Feng, Qingfeng He, Yazhu Dong, Weijun Wang, Yuanchun Li, Linghe Kong, Yunxin Liu
Large Language Model High Efficiency Co Design Inference Latency Low Rank Adapter

May 8, 2024

Vidur: A Large-Scale Simulation Framework For LLM Inference
Amey Agrawal, Nitin Kedia, Jayashree Mohan, Ashish Panwar, Nipun Kwatra, Bhargav Gulavani, Ramachandran Ramjee, Alexey Tumanov
Large Language Model LLM Inference Inference Latency Simulation Framework

May 7, 2024

Dynamic Speculation Lookahead Accelerates Speculative Decoding of Large Language Models
Jonathan Mamou, Oren Pereg, Daniel Korat, Moshe Berchansky, Nadav Timor, Moshe Wasserblat, Roy Schwartz
Large Language Model Speculative Decoding Inference Latency Speculative Execution

May 3, 2024

Structural Pruning of Pre-trained Language Models via Neural Architecture Search
Aaron Klein, Jacek Golebiowski, Xingchen Ma, Valerio Perrone, Cedric Archambeau
Language Model Pre Trained Language Model Neural Architecture Search Generalization Performance Inference Latency Structural Pruning

April 29, 2024

Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting
Fangcheng Liu, Yehui Tang, Zhenhua Liu, Yunsheng Ni, Kai Han, Yunhe Wang
Large Language Model Speculative Decoding Inference Latency Sequence Recognition Draft Model Early Exiting

April 10, 2024

April 5, 2024

Dynamic Switch Layers For Unsupervised Learning
Haiguang Li, Usama Pervaiz, Michał Matuszak, Robert Kamara, Gilles Roux, Trausti Thormundsson, Joseph Antognini
Unsupervised Learning Inference Latency Resource Constrained Device Generative Compression Device Machine Learning Dynamic Layer

March 12, 2024

CHAI: Clustered Head Attention for Efficient LLM Inference
Saurabh Agarwal, Bilge Acun, Basil Hosmer, Mostafa Elhoushi, Yejin Lee, Shivaram Venkataraman, Dimitris Papailiopoulos, Carole-Jean Wu
Self Attention LLM Inference Inference Latency Attention Head

Inference Latency

Papers

KOALA: Enhancing Speculative Decoding for LLM via Multi-Layer Draft Heads with Adversarial Learning

rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA

An approach to optimize inference of the DIART speaker diarization pipeline

S2-Attention: Hardware-Aware Context Sharding Among Attention Heads

Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference

MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention

SEED: Accelerating Reasoning Tree Construction via Scheduled Speculative Decoding

Optimizing Speculative Decoding for Serving Large Language Models Using Goodput

Fast and Slow Generating: An Empirical Study on Large and Small Language Models Collaborative Decoding

Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference

SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths

LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design

Vidur: A Large-Scale Simulation Framework For LLM Inference

Dynamic Speculation Lookahead Accelerates Speculative Decoding of Large Language Models

Structural Pruning of Pre-trained Language Models via Neural Architecture Search

Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding

CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers

Dynamic Switch Layers For Unsupervised Learning

CHAI: Clustered Head Attention for Efficient LLM Inference