Inference Optimization

Inference optimization focuses on improving the speed and efficiency of running large language models (LLMs) and other foundation models, reducing computational costs and latency without sacrificing accuracy. Current research emphasizes techniques like model compression, optimized attention mechanisms, and novel sampling strategies (e.g., speculative sampling), often implemented on specialized hardware (AI accelerators) or even CPUs for resource-constrained environments. These advancements are crucial for deploying powerful AI models in real-world applications, making them more accessible and cost-effective across diverse industries, from software development to medical imaging.

Papers

January 5, 2025

PTEENet: Post-Trained Early-Exit Neural Networks Augmentation for Inference Cost Optimization
Assaf Lahiany, Yehudit Aperstein
Deep Neural Network Deep Learning Architecture Exact Inference DNN Inference Feed Forward Early Exit Neural Network Inference Optimization

December 20, 2024

Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance
Hyunsoo Lee, Minsoo Kang, Bohyung Han
Text to Image Diffusion Model Image to Image Translation Human Guidance Diffusion Based Image Editing Inference Optimization

November 10, 2024

An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks
Mohsen Dehghankar, Mahdi Erfanian, Abolfazl Asudeh
Medical LLM Practical Algorithm Scientific Inference Efficient Inference Binary Code Matrix Multiplication Discrete Logarithm Inference Optimization

October 16, 2024

EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference
Yulei Qian, Fengcun Li, Xiangyang Ji, Xiaoyu Zhao, Jianchao Tan, Kefeng Zhang, Xunliang Cai
Large Language Model Mixture of Expert Efficient Pipeline Parallel Inference Inference Optimization

July 26, 2024

Patched MOA: optimizing inference for diverse software development tasks
Asankhaya Sharma
Large Language Model Scientific Inference Monte Carlo Tree Search LLM Based Software Engineering Inference Optimization Attack Patch

July 12, 2024

Inference Optimization of Foundation Models on AI Accelerators
Youngsuk Park, Kailash Budhathoki, Liangfu Chen, Jonas Kübler, Jiaji Huang, Matthäus Kleindessner, Jun Huan, Volkan Cevher, Yida Wang, George Karypis
Foundation Model Generative AI Transformer Architecture Fast Inference Transformer Inference AI Accelerator Inference Optimization

July 10, 2024

Inference Performance Optimization for Large Language Models on CPUs
Pujiang He, Shan Zhou, Wenhuan Huang, Changqing Li, Duyi Wang, Bin Guo, Chen Meng, Sheng Gui, Weifei Yu, Yi Xie
Large Language Model Inference Performance Inference Optimization

June 20, 2024

Control when confidence is costly
Itzel Olivos-Castillo, Paul Schrater, Xaq Pitkow
External Control High Confidence Approximate Inference Stochastic Control Efficient Control Inference Optimization Optimal Inference

May 8, 2024

ASPIRE: Iterative Amortized Posterior Inference for Bayesian Inverse Problems
Rafael Orozco, Ali Siahkoohi, Mathias Louboutin, Felix J. Herrmann
Variational Inference Inverse Problem Posterior Inference Bayesian Inverse Problem Sensor Simulation Amortized Bayesian Inference Inference Optimization

April 22, 2024

Tensor-Valued Time and Inference Path Optimization in Differential Equation-Based Generative Modeling
Dohoon Lee, Kyogu Lee
Generative Modeling Differential Analysis Inference Optimization Trajectory Inference

December 20, 2023

Federated Learning While Providing Model as a Service: Joint Training and Inference Optimization
Pengchao Han, Shiqiang Wang, Yang Jiao, Jianwei Huang
Scientific Inference Model Explanation Inference Efficiency Service Provider Joint Training Inference Performance Inference Optimization Inference Stage

November 8, 2023

Leveraging Speculative Sampling and KV-Cache Optimizations Together for Generative AI using OpenVINO
Haim Barad, Ekaterina Aidova, Yury Gorbachev
Generative AI Text Generation KV Cache Autoregressive Sequence Model Based Optimization Inference Optimization Speculative Sampling

July 6, 2022

Self-Constrained Inference Optimization on Structural Groups for Human Pose Estimation
Zhehan Kan, Shuoshuo Chen, Zeng Li, Zhihai He
Pose Estimation Human Pose Estimation Pose Prediction Intensional Group Inference Optimization

Inference Optimization

Papers

PTEENet: Post-Trained Early-Exit Neural Networks Augmentation for Inference Cost Optimization

Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance

An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks

EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference

Patched MOA: optimizing inference for diverse software development tasks

Inference Optimization of Foundation Models on AI Accelerators

Inference Performance Optimization for Large Language Models on CPUs

Control when confidence is costly

ASPIRE: Iterative Amortized Posterior Inference for Bayesian Inverse Problems

Tensor-Valued Time and Inference Path Optimization in Differential Equation-Based Generative Modeling

Federated Learning While Providing Model as a Service: Joint Training and Inference Optimization

Leveraging Speculative Sampling and KV-Cache Optimizations Together for Generative AI using OpenVINO

Self-Constrained Inference Optimization on Structural Groups for Human Pose Estimation