Decoder Only Transformer

Decoder-only transformers, a type of neural network architecture, are being extensively studied for their potential in various applications, primarily focusing on autoregressive sequence generation. Current research emphasizes improving their efficiency and capabilities, particularly addressing limitations in context length and computational complexity through techniques like optimized attention mechanisms (e.g., FlashAttention, LeanAttention) and key-value cache compression. This research is significant because it pushes the boundaries of large language models and other sequence-based tasks, impacting fields ranging from natural language processing and speech recognition to computer vision and even materials science.

Papers

April 10, 2024

Adapting LLaMA Decoder to Vision Transformer
Jiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Taiqiang Wu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo
Vision Transformer Decoder Only Transformer Decoder Only LLM Causal Attention Causal Attention Mask Unified Multimodal Soft Mask

March 8, 2024

Denoising Autoregressive Representation Learning
Yazhe Li, Jorg Bornschein, Ting Chen
Generative Model Visual Representation Image Diffusion Model Decoder Only Transformer Diffusion Decoder

February 20, 2024

Chain of Thought Empowers Transformers to Solve Inherently Serial Problems
Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma
Large Language Model Side Chain Decoder Only Transformer Symbolic Reasoning Task Thought Empowers Transformer Depth Transformer

February 7, 2024

StableMask: Refining Causal Masking in Decoder-only Transformer
Qingyu Yin, Xuzheng He, Xiang Zhuang, Yu Zhao, Jianhua Yao, Xiaoyu Shen, Qiang Zhang
Decoder Only Transformer Causal Attention Mask Encoder Only Transformer

January 31, 2024

Exploring the limits of decoder-only models trained on public speech recognition corpora
Ankit Gupta, George Saon, Brian Kingsbury
Continuum Limit Recognition Benchmark Decoder Only Transformer Decoder Only Model Speech Recognition Corpus

January 25, 2024

VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech
Chenpeng Du, Yiwei Guo, Hankun Wang, Yifan Yang, Zhikang Niu, Shuai Wang, Hui Zhang, Xie Chen, Kai Yu
Text to Speech Decoder Only Transformer Encoder Only Transformer Controllable Text to Speech Phoneme Sequence

January 11, 2024

Transformers are Multi-State RNNs
Matanel Oren, Michael Hassid, Nir Yarden, Yossi Adi, Roy Schwartz
Transformer Megatron Decepticons Recurrent Neural Network Decoder Only Transformer

December 4, 2023

GIVT: Generative Infinite-Vocabulary Transformers
Michael Tschannen, Cian Eastwood, Fabian Mentzer
Generative Pre Trained Transformer Decoder Only Transformer Latent Sequence

November 27, 2023

MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers
Yawar Siddiqui, Antonio Alliegro, Alexey Artemov, Tatiana Tommasi, Daniele Sirigatti, Vladislav Rosov, Angela Dai, Matthias Nießner
Decoder Only Transformer Human Mesh Mesh Generation Triangle Mesh Dense Mesh

November 8, 2023

Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token-based ASR
Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Shiliang Zhang, Chong Deng, Yukun Ma, Hai Yu, Jiaqing Liu, Chong Zhang
Data Discretization Decoder Only Transformer Speech Token Mask Specific Loss Speech Discrete Token

October 11, 2023

The Expressive Power of Transformers with Chain of Thought
William Merrill, Ashish Sabharwal
Transformer Megatron Decepticons Reasoning Capability Side Chain Thought Reasoning Transformer Decoder Expressive Power Reasoning Problem Decoder Only Transformer Complexity Class

October 5, 2023

DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers
Anna Langedijk, Hosein Mohebbi, Gabriele Sarti, Willem Zuidema, Jaap Jumelet
Cross Attention Encoder Decoder Model Decoder Only Transformer Encoder Decoder Transformer Interpretable Layer

September 28, 2023

Transformer-VQ: Linear-Time Transformers via Vector Quantization
Lucas D. Lingle
Vector Quantization Softmax Attention Linear Transformer Decoder Only Transformer Efficient Attention Time Transformer Q Transformer

August 30, 2023

DTrOCR: Decoder-only Transformer for Optical Character Recognition
Masato Fujitake
Generative Language Model Text Recognition Character Recognition Decoder Only Transformer Transformer Based Optical Character Recognition

April 20, 2023

OptoGPT: A Foundation Model for Inverse Design in Optical Multilayer Thin Film Structures
Taigao Ma, Haozhu Wang, L. Jay Guo
Foundation Model Generative Pre Trained Transformer Inverse Design Decoder Only Transformer Thin Film

January 12, 2023

Tracr: Compiled Transformers as a Laboratory for Interpretability
David Lindner, János Kramár, Sebastian Farquhar, Matthew Rahtz, Thomas McGrath, Vladimir Mikulik
Transformer Megatron Decepticons Inherent Interpretability Interpretability Method Decoder Only Transformer Likely LAB of Origin End to End Compiler

October 26, 2022

Scaling Laws Beyond Backpropagation
Matthew J. Filipovich, Alessandro Cappelli, Daniel Hesslow, Julien Launay
Neural Network Back Propagation Scaling Law Decoder Only Transformer Strong Scaling