Fast Inference

Fast inference in machine learning aims to accelerate the process of obtaining predictions from complex models, addressing the computational bottleneck hindering the deployment of powerful models like large language models and vision transformers. Current research focuses on techniques such as speculative decoding, model compression (including pruning and quantization), and architectural innovations like mixture-of-experts and hierarchical attention mechanisms to achieve speedups. These advancements are crucial for deploying sophisticated AI models in resource-constrained environments and real-time applications, impacting fields ranging from natural language processing and computer vision to astrophysics and robotics.

Papers

September 27, 2023

CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs
Ao Wang, Hui Chen, Zijia Lin, Sicheng Zhao, Jungong Han, Guiguang Ding
Vision Transformer Model Compression Linear Compression Task Transferability Fast Inference Channel Pruning High Accuracy Video Token

September 15, 2023

Stack-and-Delay: a new codebook pattern for music generation
Gael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra
Music Generation Codebook Learning Fast Inference

September 10, 2023

Sculpting Efficiency: Pruning Medical Imaging Models for On-Device Inference
Sudarshan Sreeram, Bernhard Kainz
Machine Learning Machine Learning Model Model Pruning Fast Inference Device Inference

August 22, 2023

Using Early Exits for Fast Inference in Automatic Modulation Classification
Elsayed Mohammed, Omar Mashaal, Hatem Abou-Zeid
Deep Learning Deep Neural Network Fast Inference Deep Architecture Early eXit Synthetic Signal Automatic Modulation Classification

August 17, 2023

Fast Inference and Update of Probabilistic Density Estimation on Trajectory Prediction
Takahiro Maeda, Norimichi Ukita
Trajectory Prediction Density Estimation Fast Inference Trajectory Prediction Model Rank One Update State of the Art Trajectory Conditional F\"ollmer Flow

July 17, 2023

Fast model inference and training on-board of Satellites
Vít Růžička, Gonzalo Mateo-García, Chris Bridges, Chris Brunskill, Cormac Purcell, Nicolas Longépé, Andrew Markham
Training Data Variational Auto Fast Inference Latent Vector Orbital Motion Multiple Satellite Satellite Production

June 5, 2023

Improving Grammar-based Sequence-to-Sequence Modeling with Decomposition and Constraints
Chao Lou, Kewei Tu
Sequence to Sequence Participation Constraint Microbial Decomposition Fast Inference

June 2, 2023

A Conditional Normalizing Flow for Accelerated Multi-Coil MR Imaging
Jeffrey Wen, Rizwan Ahmad, Philip Schniter
Magnetic Resonance Imaging Ill Posed Inverse Problem Fast Inference Conditional Normalizing Flow Accelerated Magnetic Resonance Imaging

May 21, 2023

F-PABEE: Flexible-patience-based Early Exiting for Single-label and Multi-label text Classification Tasks
Xiangxiang Gao, Wei Zhu, Jiasheng Gao, Congrui Yin
Language Model Multi Label Classification Fast Inference Single Label Multi Label Text Classification Early eXit Early Exit

May 17, 2023

Accelerating Transformer Inference for Translation via Parallel Decoding
Andrea Santilli, Silvio Severino, Emilian Postolache, Valentino Maiorca, Michele Mancusi, Riccardo Marin, Emanuele Rodolà
Machine Translation View Translation Fast Inference Transformer Inference Parallel Decoding Autoregressive Decoding

May 15, 2023

Fast Inference of Tree Ensembles on ARM Devices
Simon Koschel, Sebastian Buschjäger, Claudio Lucchese, Katharina Morik
Machine Learning Model Random Forest Black Box Classification Model Fast Inference Tree Ensemble Virtual ARM

April 20, 2023

FIANCEE: Faster Inference of Adversarial Networks via Conditional Early Exits
Polina Karpikova, Radionova Ekaterina, Anastasia Yaschenko, Andrei Spiridonov, Leonid Kostyushko, Riccardo Fabbricatore, Aleksei Ivakhnenko
Adversarial Learning Image Synthesis Image Quality Human Relationship Fast Inference Generative Neural Network Early eXit

April 11, 2023

Conditional Adapters: Parameter-efficient Transfer Learning with Fast Inference
Tao Lei, Junwen Bai, Siddhartha Brahma, Joshua Ainslie, Kenton Lee, Yanqi Zhou, Nan Du, Vincent Y. Zhao, Yuexin Wu, Bo Li, Yu Zhang, Ming-Wei Chang
Fast Inference Inference Efficiency Parameter Efficient Transfer Learning Sparse Activation Inference Speedup Conditional Adapter

March 29, 2023

Fast inference of latent space dynamics in huge relational event networks
Igor Artico, Ernst Wit
Latent Space Dynamic Network Fast Inference Latent Space Dynamic

March 23, 2023

NOPE: Novel Object Pose Estimation from a Single Image
Van Nguyen Nguyen, Thibault Groueix, Yinlin Hu, Mathieu Salzmann, Vincent Lepetit
3D Object Single Image 3D Model Fast Inference Relative Pose Object Pose Estimation Negation Detection Discriminative Embeddings

March 12, 2023

Fine-tuning Strategies for Faster Inference using Speech Self-Supervised Models: A Comparative Study
Salah Zaiem, Robin Algayres, Titouan Parcollet, Slim Essid, Mirco Ravanelli
Automatic Speech Recognition Self Supervised Comparative Study Fast Inference Self Supervised Speech Model Fine Tuning Strategy Automatic Speech Recognition Error Correction

March 8, 2023

QuickSRNet: Plain Single-Image Super-Resolution Architecture for Faster Inference on Mobile Platforms
Guillaume Berger, Manik Dhingra, Antoine Mercier, Yashesh Savani, Sunny Panchal, Fatih Porikli
Super Resolution Single Image Super Resolution Mobile Application Fast Inference Deep Learning Based Super Resolution

January 21, 2023

Versatile Neural Processes for Learning Implicit Neural Representations
Zongyu Guo, Cuiling Lan, Zhizheng Zhang, Yan Lu, Zhibo Chen
Latent Variable Neural Process Fast Inference

January 19, 2023

Fast Inference in Denoising Diffusion Models via MMD Finetuning
Emanuele Aiello, Diego Valsesia, Enrico Magli
Diffusion Model Denoising Diffusion Model Fast Inference Fast Sampling Maximum Mean Discrepancy Accelerated Sampling

December 15, 2022

FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference
Michiel de Jong, Yury Zemlyanskiy, Joshua Ainslie, Nicholas FitzGerald, Sumit Sanghai, Fei Sha, William Cohen
Retrieval Augmented Fast Inference Retrieval Augmented Language Model Knowledge Intensive