Token Prediction

Token prediction, the task of predicting the next word (or token) in a sequence, is central to many natural language processing (NLP) applications and underpins the functionality of large language models (LLMs). Current research focuses on improving prediction accuracy, particularly for long-range dependencies and in the presence of misinformation or adversarial inputs, exploring techniques like planning tokens, divergence-based calibration, and adaptive decoding methods to enhance efficiency and robustness. These advancements are crucial for building more reliable and efficient LLMs, impacting various fields from question answering and text generation to code completion and image synthesis.

Papers

April 14, 2023

M2T: Masking Transformers Twice for Faster Decoding
Fabian Mentzer, Eirikur Agustsson, Michael Tschannen
Transformer Megatron Decepticons Image Generation Image Compression Token Prediction Neural Image Compression Bidirectional Transformer Efficient Decoding

April 13, 2023

Efficient Sequence Transduction by Jointly Predicting Tokens and Durations
Hainan Xu, Fei Jia, Somshubra Majumdar, He Huang, Shinji Watanabe, Boris Ginsburg
Speech Recognition Speech Translation Token Prediction Sequence to Sequence Task RNN Transducer Sequence Transduction Long Duration Token and Duration Transducer

March 15, 2023

Attention-likelihood relationship in transformers
Valeria Ruscio, Valentino Maiorca, Fabrizio Silvestri
Large Language Model Transformer Megatron Decepticons Transformer Based Language Model Token Prediction Context Reasoning Text Perturbation Attention Based Reasoning

March 14, 2023

Finding the Needle in a Haystack: Unsupervised Rationale Extraction from Long Text Classifiers
Kamil Bujel, Andrew Caines, Helen Yannakoudakis, Marek Rei
Token Prediction Needle Insertion Video Haystack Efficient Baseline Rationale Extraction Long Sequence Transformer Long Text Classification

March 1, 2023

R-U-SURE? Uncertainty-Aware Code Suggestions By Maximizing Utility Across Random User Intents
Daniel D. Johnson, Daniel Tarlow, Christian Walder
Token Prediction Suggestion System Structural Uncertainty Code Recommendation Yes Yes Asymmetric Counterfactual Utility

February 15, 2023

Speculative Decoding with Big Little Decoder
Sehoon Kim, Karttikeya Mangalam, Suhong Moon, Jitendra Malik, Michael W. Mahoney, Amir Gholami, Kurt Keutzer
Speculative Decoding Inference Latency Token Prediction Autoregressive Generative Model

February 7, 2023

Capturing Topic Framing via Masked Language Modeling
Xiaobo Guo, Weicheng Ma, Soroush Vosoughi
Indoor Wall Frame Installation Fine Tuned Large Language Model Token Prediction Masked Language Modeling Tuned Lm Medium Framing Differential Encoding

November 20, 2022

Pragmatic Constraint on Distributional Semantics
Elizaveta Zhemchuzhina, Nikolai Filippov, Ivan P. Yamshchikov
Language Model Statistical Learning Token Prediction Semantic Ambiguity Distributional Semantics Pragmatic Constraint

October 11, 2022

Can Language Models Be Specific? How?
Jie Huang, Kevin Chen-Chuan Chang, Jinjun Xiong, Wen-mei Hwu
Language Model Pre Trained Language Model Token Prediction Prompt Based Method Specificity Benchmark

September 30, 2022

Underspecification in Language Modeling Tasks: A Causality-Informed Study of Gendered Pronoun Resolution
Emily McMilin
Study Feature Token Prediction Language Modeling Task Pronoun Resolution

June 17, 2022

Towards Efficient Active Learning of PDFA
Franz Mayr, Sergio Yovine, Federico Pan, Nicolas Basset, Thao Dang
Active Learning Multiplier Free Quantization Token Prediction Efficient Active Learning Probabilistic Deterministic Finite Automaton

May 23, 2022

May 18, 2022

"I'm sorry to hear that": Finding New Biases in Language Models with a Holistic Descriptor Dataset
Eric Michael Smith, Melissa Hall, Melanie Kambadur, Eleonora Presani, Adina Williams
Language Model Social Bias NLP Model Token Prediction Bias Measurement Large Scale Human

April 15, 2022

LaMemo: Language Modeling with Look-Ahead Memory
Haozhe Ji, Rongsheng Zhang, Zhenyu Yang, Zhipeng Hu, Minlie Huang
Language Model Long Term Memory Token Prediction