Next Token

Next-token prediction (NTP) is a dominant training paradigm for large language models (LLMs), aiming to predict the next word or token in a sequence. Current research focuses on improving NTP's effectiveness by addressing limitations like shortcut learning and insufficient planning capabilities, often employing transformer architectures and exploring novel training objectives such as horizon-length prediction and diffusion forcing. These advancements aim to enhance LLMs' ability to generate coherent and contextually relevant text, impacting various applications from code generation and autonomous driving to humanoid robotics and visual processing.

Papers

January 3, 2025

Advancing Pancreatic Cancer Prediction with a Next Visit Token Prediction Head on top of Med-BERT
Jianping He, Laila Rasmy, Degui Zhi, Cui Tao
Disease Prediction TOp Front TopMost Cancer Prediction Next Token Prediction Head

November 23, 2024

Improving Next Tokens via Second-Last Predictions with Generate and Refine
Johannes Schneider
Autoregressive Language Model Generate Quick Next Token

November 1, 2024

Physics in Next-token Prediction
Hongjun An, Yiliang Song, Xuelong Li
Theoretical Physic Computational Power Auto Regressive Emergent Intelligence Next Token

October 18, 2024

Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment
Chenhang Cui, An Zhang, Yiyang Zhou, Zhaorun Chen, Gelei Deng, Huaxiu Yao, Tat-Seng Chua
Fine Grained Large Vision Language Model Vision Language Alignment Modality Alignment Self Alignment Preference Model Next Token

October 4, 2024

Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning
Yifeng Ding, Hantian Ding, Shiqi Wang, Qing Sun, Varun Kumar, Zijian Wang
Code Generation Filling Gap Long Term Prediction Novel Training Next Token Anticipatory Planning

September 25, 2024

Non-asymptotic Convergence of Training Transformers for Next-token Prediction
Ruiquan Huang, Yingbin Liang, Jing Yang
Attention Layer Next Token Prediction Layer Transformer Transformer Training Feed Forward Layer Non Asymptotic Convergence Next Token Gradient Attention

September 17, 2024

Semformer: Transformer Language Models with Semantic Planning
Yongjing Yin, Junran Ding, Kai Song, Yue Zhang
Transformer Language Model Next Token Prediction Next Token Semantic Based Planning

August 27, 2024

Implicit Geometry of Next-token Prediction: From Language Sparsity Patterns to Model Representations
Yize Zhao, Tina Behnia, Vala Vakilian, Christos Thrampoulidis
Large Language Model Sparse Label Sparsity Pattern Model Representation Next Token Context Embeddings

July 1, 2024

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann
Generative Modeling Next Token Prediction Next Token Sequence Diffusion

June 24, 2024

Confidence Regulation Neurons in Language Models
Alessandro Stolfo, Ben Wu, Wes Gurnee, Yonatan Belinkov, Xingyi Song, Mrinmaya Sachan, Neel Nanda
Large Language Model Language Model Token Level Residual Stream Next Token Entropy Neural Confidence Based

May 27, 2024

TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction
Yinda Chen, Haoyuan Shi, Xiaoyu Liu, Te Shi, Ruobing Zhang, Dong Liu, Zhiwei Xiong, Feng Wu
Supervised Autoencoder Potential Scalability Large Scale Language Model Next Token Prediction Token Prediction Autoregressive Image Generation Token Fusion Next Token

May 24, 2024

SMART: Scalable Multi-agent Real-time Motion Generation via Next-token Prediction
Wei Wu, Xiaoxin Feng, Ziyan Gao, Yuheng Kan
Multi Agent Human Motion Motion Generation Waymo Open Motion Dataset Next Token Motion Domain

April 13, 2024

Is Next Token Prediction Sufficient for GPT? Exploration on Code Logic Comprehension
Mengnan Qi, Yufan Huang, Yongqiang Yao, Maoquan Wang, Bin Gu, Neel Sundaresan
Large Language Model Environment Exploration GPT Neo Next Token Prediction Code Completion Code Mixed Next Token Program Comprehension

February 29, 2024

Humanoid Locomotion as Next Token Prediction
Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
Generative Modeling Causal Transformer Humanoid Locomotion Sensorimotor Norm Humanoid Control Next Token

February 28, 2024

Implicit Optimization Bias of Next-Token Prediction in Linear Models
Christos Thrampoulidis
Large Language Model Gradient Descent Implicit Bias Next Token Prediction Next Token

February 23, 2024

Interpreting Context Look-ups in Transformers: Investigating Attention-MLP Interactions
Clement Neo, Shay B. Cohen, Fazl Barez
Transformer Megatron Decepticons Attention Mechanism Multi Layer Next Token Prediction Activation Pattern Next Token

Next Token

Papers

Advancing Pancreatic Cancer Prediction with a Next Visit Token Prediction Head on top of Med-BERT

Improving Next Tokens via Second-Last Predictions with Generate and Refine

Physics in Next-token Prediction

Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment

Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning

Non-asymptotic Convergence of Training Transformers for Next-token Prediction

Semformer: Transformer Language Models with Semantic Planning

Implicit Geometry of Next-token Prediction: From Language Sparsity Patterns to Model Representations

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

Confidence Regulation Neurons in Language Models

TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction

SMART: Scalable Multi-agent Real-time Motion Generation via Next-token Prediction

Is Next Token Prediction Sufficient for GPT? Exploration on Code Logic Comprehension

Humanoid Locomotion as Next Token Prediction

Implicit Optimization Bias of Next-Token Prediction in Linear Models

Interpreting Context Look-ups in Transformers: Investigating Attention-MLP Interactions