Next Token Prediction

Next-token prediction (NTP) is a machine learning technique where models predict the probability distribution of the next token in a sequence, primarily used to train large language models (LLMs). Current research focuses on improving NTP's efficiency and effectiveness through architectural innovations like encoder-only transformers and algorithmic enhancements such as multi-token prediction and selective language modeling, aiming to mitigate issues like memorization and hallucinations. The widespread use of NTP in training LLMs makes understanding its limitations and optimizing its performance crucial for advancing both the theoretical understanding of LLMs and their practical applications in various fields.

Papers

February 27, 2024

Latte: Latent Attention for Linear Time Transformers
Rares Dolga, Marius Cobzarenco, David Barber
Attention Mechanism Language Generation Next Token Prediction Latent Vector Linear Transformer

February 23, 2024

Interpreting Context Look-ups in Transformers: Investigating Attention-MLP Interactions
Clement Neo, Shay B. Cohen, Fazl Barez
Transformer Megatron Decepticons Attention Mechanism Multi Layer Next Token Prediction Activation Pattern Next Token

February 16, 2024

February 14, 2024

Bidirectional Generative Pre-training for Improving Healthcare Time-series Representation Learning
Ziyang Song, Qincheng Lu, He Zhu, David Buckeridge, Yue Li
Pre Trained Generative Pre Trained Transformer Next Token Prediction Attention Matrix Time Series Representation Learning Time Series Representation Bidirectional Generative

February 13, 2024

Tandem Transformers for Inference Efficient LLMs
Aishwarya P S, Pranav Ajit Nair, Yashas Samaga, Toby Boyd, Sanjiv Kumar, Prateek Jain, Praneeth Netrapalli
Large Language Model Visual Representation Next Token Prediction Large Language Model Inference Inference Speed

February 10, 2024

A Thorough Examination of Decoding Methods in the Era of LLMs
Chufan Shi, Haoran Yang, Deng Cai, Zhisong Zhang, Yifan Wang, Yujiu Yang, Wai Lam
Large Language Model Language Model New Era Hyperparameter Tuning Task Specific Model Next Token Prediction Decoding Method

February 8, 2024

How do Transformers perform In-Context Autoregressive Learning?
Michael E. Sander, Raja Giryes, Taiji Suzuki, Mathieu Blondel, Gabriel Peyré
Transformer Megatron Decepticons Transformer Model Next Token Prediction Layer Transformer Language Modeling Task Head Transformer Autoregressive Context

February 2, 2024

Fractal Patterns May Illuminate the Success of Next-Token Prediction
Ibrahim Alabdulmohsin, Vinh Q. Tran, Mostafa Dehghani
Next Token Prediction Financial Success Fractal Structure Fractal Dimension Short Term Prediction Justifiable Granularity

December 7, 2023

Trajeglish: Traffic Modeling as Next-Token Prediction
Jonah Philion, Xue Bin Peng, Sanja Fidler
Autonomous Vehicle Multi Agent Next Token Prediction Driving Scenario Traffic Model Discrete Token

December 4, 2023

Object Recognition as Next Token Prediction
Kaiyu Yue, Bor-Chun Chen, Jonas Geiping, Hengduo Li, Tom Goldstein, Ser-Nam Lim
Object Recognition Next Token Prediction Image Embeddings Image Token Causal Attention Mask

November 15, 2023

Token Prediction as Implicit Classification to Identify LLM-Generated Text
Yutian Chen, Hao Kang, Vivian Zhai, Liangze Li, Rita Singh, Bhiksha Raj
Large Language Model Text Modality Text Generation Next Token Prediction Text Classification Task Text to Text Transfer Transformer Implicit Feature

November 13, 2023

An Analysis and Mitigation of the Reversal Curse
Ang Lv, Kaiyi Zhang, Shufang Xie, Quan Tu, Yuhan Chen, Ji-Rong Wen, Rui Yan
Large Language Model General Analysis Faulty Negative Mitigation Next Token Prediction Reversal Curse Causal Language Causal Attention Middle Intelligence Trap

November 8, 2023

Future Lens: Anticipating Subsequent Tokens from a Single Hidden State
Koyena Pal, Jiuding Sun, Andrew Yuan, Byron C. Wallace, David Bau
Human Prediction Camera Lens Next Token Prediction Hidden State Input Token State Vector State Transformer

October 11, 2023

Large Language Models Are Zero-Shot Time Series Forecasters
Nate Gruver, Marc Finzi, Shikai Qiu, Andrew Gordon Wilson
Large Language Model Zero Shot Time Series Time Series Forecasting Next Token Prediction

October 3, 2023

Think before you speak: Training Language Models With Pause Tokens
Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan
Language Model Next Token Prediction Decoder Only Model Speech Pause

September 13, 2023

Auto-Regressive Next-Token Predictors are Universal Learners
Eran Malach
Next Token Prediction Universal Learning

September 8, 2023

Meta predictive learning model of languages in neural circuits
Chan Li, Junbin Qiu, Haiping Huang
Large Language Model Mean Field Unknown Language Predictive Coding Next Token Prediction Meta Level Neural Circuit Brain Computation

July 7, 2023

Teaching Arithmetic to Small Transformers
Nayoung Lee, Kartik Sreenivasan, Jason D. Lee, Kangwook Lee, Dimitris Papailiopoulos
Large Language Model Next Token Prediction Length Generalization Arithmetic Operation Tiny Transformer Learning Arithmetic