Draft Verification

Draft verification accelerates large language model (LLM) decoding by initially generating a draft of the output using a faster, often smaller, model, then verifying this draft against the full LLM. Current research focuses on optimizing this verification process, exploring techniques like block-level verification to improve efficiency and employing adaptive methods that adjust to changing token probabilities. These advancements significantly reduce the computational cost of LLM inference, leading to faster generation times and broader applicability in latency-sensitive applications like real-time translation and maritime surveillance. The resulting speed improvements are crucial for deploying LLMs in resource-constrained environments and real-world scenarios.

Papers

June 27, 2024

Adaptive Draft-Verification for Efficient Large Language Model Decoding
Xukun Liu, Bowen Lei, Ruqi Zhang, Dongkuan Xu
Large Language Model Accurate Decoding Token Prediction Decoder Only Large Language Model Draft Verification

March 15, 2024

Optimal Block-Level Draft Verification for Accelerating Speculative Decoding
Ziteng Sun, Jae Hun Ro, Ahmad Beirami, Ananda Theertha Suresh
Large Language Model Token Level Speculative Decoding Draft Verification

February 21, 2024

Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding
Weilin Zhao, Yuxiang Huang, Xu Han, Wang Xu, Chaojun Xiao, Xinrong Zhang, Yewei Fang, Kaihuo Zhang, Zhiyuan Liu, Maosong Sun
Large Language Model Text Generation Speculative Decoding Quality Phrase Draft Verification

October 11, 2023

Multi-Task Learning-Enabled Automatic Vessel Draft Reading for Intelligent Maritime Surveillance
Jingxiang Qu, Ryan Wen Liu, Chenjie Zhao, Yu Guo, Sendren Sheng-Dong Xu, Fenghua Zhu, Yisheng Lv
Multi Task Maritime Surveillance Draft Verification

March 30, 2022

Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation
Heming Xia, Tao Ge, Peiyi Wang, Si-Qing Chen, Furu Wei, Zhifang Sui
Speculative Decoding Speculative Execution Draft Verification Seq2seq Generation

Draft Verification

Papers

Adaptive Draft-Verification for Efficient Large Language Model Decoding

Optimal Block-Level Draft Verification for Accelerating Speculative Decoding

Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding

Multi-Task Learning-Enabled Automatic Vessel Draft Reading for Intelligent Maritime Surveillance

Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation