Efficient Inference

Efficient inference for large language models (LLMs) aims to reduce the substantial computational cost and memory demands of LLM deployment, enabling wider accessibility and practical applications. Current research focuses on techniques like model compression (quantization, pruning, knowledge distillation), optimized decoding strategies (speculative decoding, early exiting), and novel architectures (e.g., linear attention mechanisms, recurrent networks) to improve speed and resource efficiency. These advancements are crucial for deploying LLMs on resource-constrained devices and reducing the environmental impact of their operation, impacting both scientific research and various industries.

Papers

October 7, 2024

Efficient Inference for Large Language Model-based Generative Recommendation
Xinyu Lin, Chaoqun Yang, Wenjie Wang, Yongqi Li, Cunxiao Du, Fuli Feng, See-Kiong Ng, Tat-Seng Chua
Large Language Model Large Language Efficient Inference Speculative Decoding Generative Recommendation

October 3, 2024

September 11, 2024

Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU
Zhenyu Ning, Jieru Zhao, Qihao Jin, Wenchao Ding, Minyi Guo
Multimodal Large Language Model Single GPU Efficient Inference MLLM Attention Streaming Inference

September 3, 2024

Efficient Large Foundation Model Inference: A Perspective From Model and System Co-Design
Dong Liu, Zhixin Lai, Yite Wang, Jing Wu, Yanxuan Yu, Zhongwei Wan, Benjamin Lengerich, Ying Nian Wu
Model Compression LLM Inference Efficient Inference Large Language Model Inference

August 27, 2024

Writing in the Margins: Better Inference Pattern for Long Context Retrieval
Melisa Russak, Umar Jamil, Christopher Bryant, Kiran Kamble, Axel Magnuson, Mateusz Russak, Waseem AlShikh
Long Context Efficient Inference Input Sequence Margin Maximization Retrieval Task Segment Representation

August 25, 2024

Path-Consistency: Prefix Enhancement for Efficient Inference in LLM
Jiace Zhu, Yingtao Shen, Jie Zhao, An Zou
Large Language Model Medical LLM Efficient Inference Inference Latency Symbolic Reasoning Self Consistency Parse Instructed Prefix Path Consistency

August 20, 2024

HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models
Kazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji
Vision Language Model High Resolution Efficient Inference Resource Constrained Vision Encoders Token Dropping

July 25, 2024

July 2, 2024

July 1, 2024

Neural Conditional Probability for Inference
Vladimir R. Kostic, Karim Lounici, Gregoire Pacreau, Pietro Novelli, Giacomo Turri, Massimiliano Pontil
Scientific Inference Efficient Inference Conditional Distribution Inference Task Confidence Region Convolutional Conditional Neural Process

June 26, 2024

SEED: Accelerating Reasoning Tree Construction via Scheduled Speculative Decoding
Zhenglin Wang, Jialong Wu, Yilong Lai, Congzhi Zhang, Deyu Zhou
Efficient Inference Speculative Decoding Inference Latency Reasoning Datasets Seed Nanopriming Tree Structure Reasoning schEmA

June 20, 2024

CascadeServe: Unlocking Model Cascades for Inference Serving
Ferdi Kossmann, Ziniu Wu, Alex Turk, Nesime Tatbul, Lei Cao, Samuel Madden
Efficient Inference Cascade Model TF Cascade Inference Workload Inference Service Model Replication

May 24, 2024

RAEE: A Robust Retrieval-Augmented Early Exiting Framework for Efficient Inference
Lianming Huang, Shangyu Wu, Yufei Cui, Ying Xiong, Xue Liu, Tei-Wei Kuo, Nan Guan, Chun Jason Xue
Training Free Efficient Inference Large Language Model Inference Model Inference Early Exiting

May 20, 2024

ASMR: Activation-sharing Multi-resolution Coordinate Networks For Efficient Inference
Jason Chun Lok Li, Steven Tin Sui Luo, Le Xu, Ngai Wong
Implicit Neural Representation Efficient Inference Multi Resolution Compact Neural Representation Multi Scale Decomposition

May 17, 2024

Layer-Condensed KV Cache for Efficient Inference of Large Language Models
Haoyi Wu, Kewei Tu
Large Language Model Language Model Transformer Architecture Large Scale Language Model Efficient Inference Key Value Cache

May 14, 2024

Efficient Inference

Papers

Efficient Inference for Large Language Model-based Generative Recommendation

FastAdaSP: Multitask-Adapted Efficient Inference for Large Speech Language Model

LLMCO2: Advancing Accurate Carbon Footprint Prediction for LLM Inferences

Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU

Efficient Large Foundation Model Inference: A Perspective From Model and System Co-Design

Writing in the Margins: Better Inference Pattern for Long Context Retrieval

Path-Consistency: Prefix Enhancement for Efficient Inference in LLM

HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models

Efficient Inference of Vision Instruction-Following Models with Elastic Cache

An Efficient Inference Framework for Early-exit Large Language Models

Agreement-Based Cascading for Efficient Inference

Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization

Neural Conditional Probability for Inference

SEED: Accelerating Reasoning Tree Construction via Scheduled Speculative Decoding

CascadeServe: Unlocking Model Cascades for Inference Serving

RAEE: A Robust Retrieval-Augmented Early Exiting Framework for Efficient Inference

ASMR: Activation-sharing Multi-resolution Coordinate Networks For Efficient Inference

Layer-Condensed KV Cache for Efficient Inference of Large Language Models

Computation-Aware Kalman Filtering and Smoothing

Addressing Misspecification in Simulation-based Inference through Data-driven Calibration