Efficient Inference

Efficient inference for large language models (LLMs) aims to reduce the substantial computational cost and memory demands of LLM deployment, enabling wider accessibility and practical applications. Current research focuses on techniques like model compression (quantization, pruning, knowledge distillation), optimized decoding strategies (speculative decoding, early exiting), and novel architectures (e.g., linear attention mechanisms, recurrent networks) to improve speed and resource efficiency. These advancements are crucial for deploying LLMs on resource-constrained devices and reducing the environmental impact of their operation, impacting both scientific research and various industries.

Papers

May 13, 2024

Neural Network Compression for Reinforcement Learning Tasks
Dmitry A. Ivanov, Denis A. Larionov, Oleg V. Maslennikov, Vladimir V. Voevodin
Reinforcement Learning Reinforcement Learning Algorithm Sparsity Increase Efficient Inference Neural Network Compression Neural Network Inference Reinforcement Learning Task

April 22, 2024

A Survey on Efficient Inference for Large Language Models
Zixuan Zhou, Xuefei Ning, Ke Hong, Tianyu Fu, Jiaming Xu, Shiyao Li, Yuming Lou, Luning Wang, Zhihang Yuan, Xiuhong Li, Shengen Yan, Guohao Dai, Xiao-Ping Zhang, Yuhan Dong, Yu Wang
Timely Survey LLM Inference Efficient Inference Quadratic Attention

April 12, 2024

Structured Model Pruning for Efficient Inference in Computational Pathology
Mohammed Adnan, Qinle Ba, Nazim Shaikh, Shivam Kalra, Satarupa Mukherjee, Auranuch Lorsakul
Model Compression Digital Pathology Computational Pathology Efficient Inference Model Pruning Nucleus Instance Segmentation

April 11, 2024

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models
Aleksandar Botev, Soham De, Samuel L Smith, Anushan Fernando, George-Cristian Muraru, Ruba Haroun, Leonard Berrada, Razvan Pascanu, Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Sertan Girgin, Olivier Bachem, Alek Andreev, Kathleen Kenealy, Thomas Mesnard, Cassidy Hardin, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Armand Joulin, Noah Fiedel, Evan Senter, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, David Budden, Arnaud Doucet, Sharad Vikram, Adam Paszke, Trevor Gale, Sebastian Borgeaud, Charlie Chen, Andy Brock, Antonia Paterson, Jenny Brennan, Meg Risdal, Raj Gundluru, Nesh Devanathan, Paul Mooney, Nilay Chauhan, Phil Culliton, Luiz Gustavo Martins, Elisa Bandy, David Huntsperger, Glenn Cameron, Arthur Zucker, Tris Warkentin, Ludovic Peran, Minh Giang, Zoubin Ghahramani, Clément Farabet, Koray Kavukcuoglu, Demis Hassabis, Raia Hadsell, Yee Whye Teh, Nando de Frietas
Language Model Long Sequence Efficient Inference Novel Architecture

April 3, 2024

Talaria: Interactively Optimizing Machine Learning Models for Efficient Inference
Fred Hohman, Chaoqun Wang, Jinmook Lee, Jochen Görtler, Dominik Moritz, Jeffrey P Bigham, Zhile Ren, Cecile Foret, Qi Shan, Xiaoyi Zhang
Machine Learning Model Efficient Inference Inference Efficiency Statistical Model Device Machine Learning Efficient Machine Learning Model Visualization

March 21, 2024

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang
Multimodal Large Language Model Multi Modal Large Language Model Mamba in Mamba Efficient Inference Mamba Based Mamba Based Model Original CoBRA

March 19, 2024

Memory-Efficient and Secure DNN Inference on TrustZone-enabled Consumer IoT Devices
Xueshuo Xie, Haoxu Wang, Zhaolong Jian, Tao Li, Wei Wang, Zhiwei Xu, Guiling Wang
Neural Network Efficient Inference Internet of Thing Device Limited Memory Secure Deep Inference Memory Usage

March 4, 2024

Inference Acceleration for Large Language Models on CPUs
Ditto PS, Jithin VG, Adarsh MS
Large Language Model Natural Language Processing Scientific Inference Efficient Inference Inference Accelerator Inference Acceleration

February 20, 2024

TorchCP: A Python Library for Conformal Prediction
Jianguo Huang, Jianqing Song, Xuanning Zhou, Bingyi Jing, Hongxin Wei
Conformal Prediction Pytorch Model Efficient Inference Easy to Use Library

February 19, 2024

Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding
Zhuoming Chen, Avner May, Ruslan Svirschevski, Yuhsun Huang, Max Ryabinin, Zhihao Jia, Beidi Chen
Large Language Model Potential Scalability Efficient Inference Speculative Decoding Neural Network Inference

February 15, 2024

February 13, 2024

Gaussian Ensemble Belief Propagation for Efficient Inference in High-Dimensional Systems
Dan MacKinlay, Russell Tsuchida, Dan Pagendam, Petra Kuhnert
High Dimensional Data Assimilation Efficient Inference Belief Propagation Ensemble Kalman Filter

February 7, 2024

Online Cascade Learning for Efficient Inference over Streams
Lunyiu Nie, Zhimin Ding, Erdong Hu, Christopher Jermaine, Swarat Chaudhuri
LLM Inference Efficient Inference Inference Cost Link Stream Cascade Learning

February 6, 2024

BiLLM: Pushing the Limit of Post-Training Quantization for LLMs
Wei Huang, Yangdong Liu, Haotong Qin, Ying Li, Shiming Zhang, Xianglong Liu, Michele Magno, Xiaojuan Qi
Large Language Model Continuum Limit Post Training Quantization Efficient Inference Language Processing

January 17, 2024

Dynamic DNNs and Runtime Management for Efficient Inference on Mobile/Embedded Devices
Lei Xun, Jonathon Hare, Geoff V. Merrett
Neural Network Deep Neural Network Efficient Inference Embedded System Mobile User Runtime Monitoring Dynamic Neural Network Deep Neural Network Performance

January 12, 2024

Transitional Grid Maps: Joint Modeling of Static and Dynamic Occupancy
José Manuel Gaspar Sánchez, Leonard Bruns, Jana Tumova, Patric Jensfelt, Martin Törngren
Autonomous Agent Dynamic Environment Efficient Inference Particle Filter Limited Sensing Grid Map

December 19, 2023

ConsistentEE: A Consistent and Hardness-Guided Early Exiting Method for Accelerating Language Models Inference
Ziqian Zeng, Yihuai Hong, Hongliang Dai, Huiping Zhuang, Cen Chen
Scientific Inference Strong Consistency Efficient Inference Early Exit Reinforcement Learning Problem Language Model Inference

December 15, 2023

Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference
Bartosz Wójcik, Alessio Devoto, Karol Pustelnik, Pasquale Minervini, Simone Scardapane
Speech Recognition Pre Trained Model Transformer Model Efficient Inference Linear Attention Adaptive Computation

December 5, 2023

Sample-based Dynamic Hierarchical Transformer with Layer and Head Flexibility via Contextual Bandit
Fanfei Meng, Lele Zhang, Yu Chen, Yuxin Wang
Transformer Based Multi Layer Thompson Sampling Efficient Inference Hierarchical Transformer Head Motion Dynamic Transformer