Inference Speed

Inference speed, the time taken for a machine learning model to process input and produce output, is a critical factor limiting the deployment of powerful models in resource-constrained environments and real-time applications. Current research focuses on optimizing various model architectures, including transformers and diffusion models, through techniques like knowledge distillation, model pruning, parallel decoding, and early exiting, aiming to significantly reduce latency without sacrificing accuracy. These advancements are crucial for expanding the practical applications of large language models, computer vision systems, and other computationally intensive AI systems across diverse platforms, from smartphones to embedded devices.

Papers

August 28, 2023

Mobile Foundation Model as Firmware
Jinliang Yuan, Chen Yang, Dongqi Cai, Shihe Wang, Xin Yuan, Zeling Zhang, Xiang Li, Dingge Zhang, Hanzi Mei, Xianqing Jia, Shangguang Wang, Mengwei Xu
Deep Learning Model Foundation Model Task Specific Model Inference Speed Mobile AI IoT Firmware

July 17, 2023

UPSCALE: Unconstrained Channel Pruning
Alvin Wan, Hanxiang Hao, Kaushik Patnaik, Yueyang Xu, Omer Hadad, David Güera, Zhile Ren, Qi Shan
Inference Latency Inference Speed Channel Pruning SE SPP DenseNet Inference Memory Usage

July 2, 2023

Fourier-Mixed Window Attention: Accelerating Informer for Long Sequence Time-Series Forecasting
Nhat Thanh Tran, Jack Xin
Attention Matrix Inference Speed Window Attention Fourier Attention

June 2, 2023

Task-Agnostic Structured Pruning of Speech Representation Models
Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Hongbin Suo, Yulong Wan
Pre Trained Model Speech Representation Structured Pruning Inference Speed Wav2vec U Task Agnostic Fine Grained Attention

January 27, 2023

Candidate Soups: Fusing Candidate Results Improves Translation Quality for Non-Autoregressive Translation
Huanran Zheng, Wei Zhu, Pengfei Wang, Xiaoling Wang
Translation Quality Inference Speed Election Result Non Autoregressive Translation Autoregressive Translation

December 9, 2022

All-in-One: A Highly Representative DNN Pruning Framework for Edge Devices with Dynamic Power Management
Yifan Gong, Zheng Zhan, Pu Zhao, Yushu Wu, Chao Wu, Caiwen Ding, Weiwen Jiang, Minghai Qin, Yanzhi Wang
Edge Device Inference Speed Single All in One Model Voltage Island

November 21, 2022

You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model
Shengkun Tang, Yaqing Wang, Zhenglun Kong, Tianchi Zhang, Yao Li, Caiwen Ding, Yanzhi Wang, Yi Liang, Dongkuan Xu
Inference Efficiency Inference Speed Early Exit Large Scale Transformer Model

October 14, 2022

$\alpha$QBoost: An Iteratively Weighted Adiabatic Trained Classifier
Salvatore Certo, Andrew Vlasic, Daniel Beaulieu
Training Data Novel Algorithm Inference Speed Statistical Framework

October 5, 2022

Teaching Yourself: Graph Self-Distillation on Neighborhood for Node Classification
Lirong Wu, Jun Xia, Haitao Lin, Zhangyang Gao, Zicheng Liu, Guojiang Zhao, Stan Z. Li
Graph Neural Network Node Classification Inference Speed Neighborhood Level Self Knowledge Distillation

September 29, 2022

Tuning of Mixture-of-Experts Mixed-Precision Neural Networks
Fabian Tschopp
Deep Learning Convolutional Neural Network Inference Speed Mixed Precision Deep Learning Inference OpenCL Code

September 26, 2022

Efficient Multi-Prize Lottery Tickets: Enhanced Accuracy, Training, and Inference Speed
Hao Cheng, Pu Zhao, Yize Li, Xue Lin, James Diffenderfer, Ryan Goldhahn, Bhavya Kailkhura
Neural Network Training Data High Efficiency Multidimensional Local Precision Rate Binary Neural Network Accuracy Improvement Lottery Ticket Inference Speed Inference Speedup Pruning Ratio

June 1, 2022

Task-Specific Expert Pruning for Sparse Mixture-of-Experts
Tianyu Chen, Shaohan Huang, Yuan Xie, Binxing Jiao, Daxin Jiang, Haoyi Zhou, Jianxin Li, Furu Wei
Inference Speed Expert Parallelism Sparse Mixture of Expert Sparse Expert

May 21, 2022

Lightweight Human Pose Estimation Using Heatmap-Weighting Loss
Shiqi Li, Xiang Xiang
Loss Function Attention Mechanism Human Pose Estimation Inference Speed Pose Estimation Model Weight Re Mapping

April 15, 2022

Characterizing the Efficiency vs. Accuracy Trade-off for Long-Context NLP Models
Phyllis Ang, Bhuwan Dhingra, Lisa Wu Wills
High Efficiency Long Context Encoder Decoder Sequence Model Input Sequence Inference Speed Natural Language Processing Benchmark Accuracy Trade

April 13, 2022

TangoBERT: Reducing Inference Cost by using Cascaded Architecture
Jonathan Mamou, Oren Pereg, Moshe Wasserblat, Roy Schwartz
Transformer Based Model NLP Task Inference Cost Layer Transformer Inference Speed

March 30, 2022

PP-YOLOE: An evolved version of YOLO
Shangliang Xu, Xinxin Wang, Wenyu Lv, Qinyao Chang, Cheng Cui, Kaipeng Deng, Guanzhong Wang, Qingqing Dang, Shengyu Wei, Yuning Du, Baohua Lai
Inference Speed Version Identification YOLO Shake Hand State of the Art Object Look Once, Version 3 Anchor Free

March 28, 2022

SPIQ: Data-Free Per-Channel Static Input Quantization
Edouard Yvinec, Arnaud Dapogny, Matthieu Cord, Kevin Bailly
Inference Speed Data Free Quantization Input Quantization

February 8, 2022

InferGrad: Improving Diffusion Models for Vocoder by Considering Inference in Training
Zehua Chen, Xu Tan, Ke Wang, Shifeng Pan, Danilo Mandic, Lei He, Sheng Zhao
Diffusion Model Generative Model Training Data Scientific Inference Denoising Diffusion High Fidelity Vocoder Inference Speed Iterative Inference