Next Token Prediction

Next-token prediction (NTP) is a machine learning technique where models predict the probability distribution of the next token in a sequence, primarily used to train large language models (LLMs). Current research focuses on improving NTP's efficiency and effectiveness through architectural innovations like encoder-only transformers and algorithmic enhancements such as multi-token prediction and selective language modeling, aiming to mitigate issues like memorization and hallucinations. The widespread use of NTP in training LLMs makes understanding its limitations and optimizing its performance crucial for advancing both the theoretical understanding of LLMs and their practical applications in various fields.

Papers

June 6, 2024

Transformers need glasses! Information over-squashing in language tasks
Federico Barbero, Andrea Banino, Steven Kapturowski, Dharshan Kumaran, João G.M. Araújo, Alex Vitvitskyi, Razvan Pascanu, Petar Veličković
Large Language Model Transformer Megatron Decepticons Full Information Next Token Prediction Language Task Decoder Only Transformer Decoder Only Language Model Representation Collapse Full Frame Eyeglass Model

June 5, 2024

Local to Global: Learning Dynamics and Effect of Initialization for Transformers
Ashok Vardhan Makkuva, Marco Bondaschi, Chanakya Ekbote, Adway Girish, Alliot Nagle, Hyeji Kim, Michael Gastpar
Transformer Megatron Decepticons Mixed Effect Transformer Based Model World Event Learning Dynamic Next Token Prediction New Initialization Layer Transformer

May 28, 2024

Towards a theory of how the structure of language is acquired by deep neural networks
Francesco Cagnetta, Matthieu Wyart
Language Model Deep Neural Network Human Language Theoretical Understanding Inner Structure Next Token Prediction Probabilistic Context Free Grammar Hierarchical Generative Token Correlation

May 27, 2024

TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction
Yinda Chen, Haoyuan Shi, Xiaoyu Liu, Te Shi, Ruobing Zhang, Dong Liu, Zhiwei Xiong, Feng Wu
Supervised Autoencoder Potential Scalability Large Scale Language Model Next Token Prediction Token Prediction Autoregressive Image Generation Token Fusion Next Token

May 24, 2024

Transformers represent belief state geometry in their residual stream
Adam S. Shai, Sarah E. Marzen, Lucas Teixeira, Alexander Gietelink Oldenziel, Paul M. Riechers
Large Language Model Transformer Megatron Decepticons Next Token Prediction Belief State Residual Stream Optimal Prediction

May 22, 2024

Next-token prediction capacity: general upper bounds and a lower bound for transformers
Liam Madden, Curtis Fox, Christos Thrampoulidis
Transformer Megatron Decepticons Lower Bound Next Token Prediction Decoder Only Transformer

May 21, 2024

May 10, 2024

Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval
Mengjia Niu, Hao Li, Jie Shi, Hamed Haddadi, Fan Mo
Large Language Model Knowledge Graph Mitigating Hallucination Next Token Prediction Knowledge Retrieval RDF Triple

May 1, 2024

Clover: Regressive Lightweight Speculative Decoding with Sequential Knowledge
Bin Xiao, Chunan Shi, Xiaonan Nie, Fan Yang, Xiangwei Deng, Lei Su, Weipeng Chen, Bin Cui
Large Language Model Speculative Decoding Next Token Prediction Attention Decoder Speculative Exploration Auto Regressive Decoding Clover Sowing

April 30, 2024

Better & Faster Large Language Models via Multi-token Prediction
Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve
Large Language Model Language Model Next Token Prediction Good Better Faster Pace

April 13, 2024

Is Next Token Prediction Sufficient for GPT? Exploration on Code Logic Comprehension
Mengnan Qi, Yufan Huang, Yongqiang Yao, Maoquan Wang, Bin Gu, Neel Sundaresan
Large Language Model Environment Exploration GPT Neo Next Token Prediction Code Completion Code Mixed Next Token Program Comprehension

April 11, 2024

Rho-1: Not All Tokens Are What You Need
Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
Language Model Token Level K TOKEN Next Token Prediction

March 31, 2024

Learning to Plan for Language Modeling from Unlabeled Data
Nathan Cornille, Marie-Francine Moens, Florian Mai
Large Language Model Language Model LeArning Abstract Unlabeled Data Next Token Prediction

March 14, 2024

Semiparametric Token-Sequence Co-Supervision
Hyunji Lee, Doyoung Kim, Jihoon Jun, Sejune Joo, Joel Jang, Kyoung-Woon On, Minjoon Seo
Language Model Next Token Prediction Semi Parametric Co Training

March 13, 2024

Language models scale reliably with over-training and on downstream tasks
Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Luca Soldaini, Alexandros G. Dimakis, Gabriel Ilharco, Pang Wei Koh, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt
Language Model Downstream Task Scaling Law Next Token Prediction

March 11, 2024

The pitfalls of next-token prediction
Gregor Bachmann, Vaishnavh Nagarajan
Common Pitfall Next Token Prediction

March 6, 2024

On the Origins of Linear Representations in Large Language Models
Yibo Jiang, Goutham Rajendran, Pradeep Ravikumar, Bryon Aragam, Victor Veitch
Large Language Model Next Token Prediction Visual Creation Linear Representation

February 29, 2024

Beyond Language Models: Byte Models are Digital World Simulators
Shangda Wu, Xu Tan, Zili Wang, Rui Wang, Xiaobing Li, Maosong Sun
Language Model Next Token Prediction Symbolic Music Binary Code Traditional Deep Learning Byte Level World Simulator Next Frame Prediction

February 28, 2024

Implicit Optimization Bias of Next-Token Prediction in Linear Models
Christos Thrampoulidis
Large Language Model Gradient Descent Implicit Bias Next Token Prediction Next Token