Inference Time

Inference time, the time taken for a model to process an input and produce an output, is a critical factor in the performance and scalability of large language models (LLMs) and other deep learning systems. Current research focuses on optimizing inference efficiency through techniques like adaptive sampling, architecture search for efficient inference-time techniques, and model compression methods, aiming to reduce computational costs without sacrificing accuracy. These advancements are crucial for deploying LLMs in resource-constrained environments and improving the responsiveness of AI applications, impacting both the efficiency of AI systems and their accessibility to a wider range of users.

Papers

August 1, 2024

CERT-ED: Certifiably Robust Text Classification for Edit Distance
Zhuoqun Huang, Neil G Marchant, Olga Ohrimenko, Benjamin I. P. Rubinstein
Adversarial Example Inference Time Edit Distance Robust Text Classification Deletion Inference

July 30, 2024

Can LLMs be Fooled? Investigating Vulnerabilities in LLMs
Sara Abdali, Jia He, CJ Barberan, Richard Anarfi
Large Language Model Natural Language Processing Security Vulnerability Inference Time

July 20, 2024

GreenStableYolo: Optimizing Inference Time and Image Quality of Text-to-Image Generation
Jingzhi Gong, Sisi Li, Giordano d'Aloisio, Zishuo Ding, Yulong Ye, William B. Langdon, Federica Sarro
Text to Image Generation Image Quality Inference Time GPU Inference

July 7, 2024

MINDECHO: Role-Playing Language Agents for Key Opinion Leaders
Rui Xu, Dakuan Lu, Xiaoyu Tan, Xintao Wang, Siyu Yuan, Jiangjie Chen, Wei Chu, Yinghui Xu
Language Agent Inference Time Role Playing Opinion Leader

July 4, 2024

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction
Amanda Dsouza, Christopher Glaze, Changho Shin, Frederic Sala
Large Language Model Level Test Inference Time Working Memory Context Extrapolation QA Task

July 1, 2024

Tree Search for Language Model Agents
Jing Yu Koh, Stephen McAleer, Daniel Fried, Ruslan Salakhutdinov
Language Model Language Understanding Autonomous Agent LLM Agent Inference Time Tree Search Language Model Agent

June 24, 2024

From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models
Sean Welleck, Amanda Bertsch, Matthew Finlayson, Hailey Schoelkopf, Alex Xie, Graham Neubig, Ilia Kulikov, Zaid Harchaoui
Large Language Model Language Model Inference Time Token Generation Open Ended Natural Language Generation

June 20, 2024

June 18, 2024

CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models
Yuetai Li, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Dinuka Sahabandu, Bhaskar Ramasubramanian, Radha Poovendran
Large Language Model Backdoor Attack Generation Task Inference Time

June 17, 2024

FullCert: Deterministic End-to-End Certification for Training and Inference of Neural Networks
Tobias Lorenz, Marta Kwiatkowska, Mario Fritz
Neural Network Training Data Scientific Inference Inference Time Robustness Guarantee Training Time Attack Novel Certification Certification Algorithm

June 10, 2024

Efficient Neural Compression with Inference-time Decoding
C. Metz, O. Bichler, A. Dupret
Inference Time Mixed Precision Quantization Neural Compression Fixed Point Neural Network Quantization Decoder Architecture

June 4, 2024

Dreamguider: Improved Training free Diffusion-based Conditional Generation
Nithin Gopalakrishnan Nair, Vishal M Patel
Gradient Flow Inference Time Conditional Generation Improved Training Memory Intensive Backpropagation

May 29, 2024

Hybrid-Parallel: Achieving High Performance and Energy Efficient Distributed Inference on Robots
Zekai Sun, Xiuxian Guan, Junming Wang, Haoze Song, Yuhao Qing, Tianxiang Shen, Dong Huang, Fangming Liu, Heming Cui
Non Humanoid Robot Scientific Inference Energy Efficiency Inference Time High Performance Energy Efficient Inference Inference Performance

May 25, 2024

MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
Jikun Kang, Xin Zhe Li, Xi Chen, Amirreza Kazemi, Qianyi Sun, Boxing Chen, Dong Li, Xu He, Quan He, Feng Wen, Jianye Hao, Jun Yao
Reasoning Task Mathematical Reasoning Complex Reasoning Task Reasoning Path Inference Time

May 15, 2024

Spectral Editing of Activations for Large Language Model Alignment
Yifu Qiu, Zheng Zhao, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti, Shay B. Cohen
Large Language Model Internal Representation Targeted Activation Penalty Inference Time Large Language Model Alignment Input Representation Spectral Filtering

April 7, 2024

Inference-Time Rule Eraser: Fair Recognition via Distilling and Removing Biased Rules
Yi Zhang, Dongyuan Lu, Jitao Sang
Scientific Inference Absolute Stance Bias Inference Time Biased Decision Model Deployment Bias Removal

March 26, 2024

Prediction-sharing During Training and Inference
Yotam Gafni, Ronen Gradwohl, Moshe Tennenholtz
Training Data Scientific Inference Inference Time Data Sharing Optimal Contract Link Sharing Practice

February 18, 2024

Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once?
Guijin Son, Sangwon Baek, Sangdae Nam, Ilgyun Jeong, Seungone Kim
Large Language Model Inference Time Inference Framework Diverse Instruction Multi Task Inference

January 11, 2024

Combating Adversarial Attacks with Multi-Agent Debate
Steffi Chern, Zhen Fan, Andy Liu
Language Model Adversarial Attack Adversarial Prompt Inference Time Multi Agent Debate

Inference Time

Papers

CERT-ED: Certifiably Robust Text Classification for Edit Distance

Can LLMs be Fooled? Investigating Vulnerabilities in LLMs

GreenStableYolo: Optimizing Inference Time and Image Quality of Text-to-Image Generation

MINDECHO: Role-Playing Language Agents for Key Opinion Leaders

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

Tree Search for Language Model Agents

From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models

Failure-Resilient Distributed Inference with Model Compression over Heterogeneous Edge Devices

Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation

CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models

FullCert: Deterministic End-to-End Certification for Training and Inference of Neural Networks

Efficient Neural Compression with Inference-time Decoding

Dreamguider: Improved Training free Diffusion-based Conditional Generation

Hybrid-Parallel: Achieving High Performance and Energy Efficient Distributed Inference on Robots

MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time

Spectral Editing of Activations for Large Language Model Alignment

Inference-Time Rule Eraser: Fair Recognition via Distilling and Removing Biased Rules

Prediction-sharing During Training and Inference

Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once?

Combating Adversarial Attacks with Multi-Agent Debate