Layer Transformer

Layer Transformers, a class of neural network architectures, are being intensely studied to understand their optimization dynamics, generalization capabilities, and representational power. Research focuses on analyzing simplified models (e.g., one- or two-layer versions) to gain theoretical insights into training algorithms like gradient descent and Adam, as well as exploring architectural variations such as axial transformers and mixture-of-experts models to improve efficiency and performance in various applications. These investigations aim to enhance our understanding of how these models learn, generalize, and solve complex tasks, ultimately leading to more efficient and effective deep learning systems for diverse fields like natural language processing and computer vision.

Papers

October 8, 2023

In-Context Convergence of Transformers
Yu Huang, Yuan Cheng, Yingbin Liang
Transformer Megatron Decepticons Context Learning Layer Transformer Softmax Attention Linear Transformer Mass Convergence Event

October 1, 2023

JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and Attention
Yuandong Tian, Yiping Wang, Zhenyu Zhang, Beidi Chen, Simon Du
Human Attention Self Attention Layer Layer Transformer Single Scene Specific MLP Nonlinear Activation Hierarchical Generative Multi Joint Joint Cross Attention

August 25, 2023

GEMTrans: A General, Echocardiography-based, Multi-Level Transformer Framework for Cardiovascular Diagnosis
Masoud Mokhtari, Neda Ahmadi, Teresa S. M. Tsang, Purang Abolmaesumi, Renjie Liao
Vision Based Layer Transformer Transesophageal Echocardiography Ejection Fraction

July 7, 2023

One Step of Gradient Descent is Provably the Optimal In-Context Learner with One Layer of Linear Self-Attention
Arvind Mahankali, Tatsunori B. Hashimoto, Tengyu Ma
Gradient Descent Self Attention Multi Layer Cross Over Step Ridge Regression Layer Transformer Synthetic Task

July 5, 2023

Task-Specific Alignment and Multiple Level Transformer for Few-Shot Action Recognition
Fei Guo, Li Zhu, YiWang Wang, Jing Sun
Shot Learning Action Recognition Temporal Alignment Layer Transformer Task Alignment Action Duration

May 31, 2023

LAIT: Efficient Multi-Segment Encoding in Transformers with Layer-Adjustable Interaction
Jeremiah Milbauer, Annie Louis, Mohammad Javad Hosseini, Alex Fabrikant, Donald Metzler, Tal Schuster
Transformer Megatron Decepticons Self Attention Layer Transformer Token Representation Transformer Encoders Dual Encoder Layer Interaction

May 30, 2023

Jointly Reparametrized Multi-Layer Adaptation for Efficient and Private Tuning
Umang Gupta, Aram Galstyan, Greg Ver Steeg
Fine Tuning High Efficiency Layer Transformer Private Fine Tuning Language Transformer Finetuning Method

May 29, 2023

Approximation Rate of the Transformer Architecture for Sequence Modeling
Haotian Jiang, Qianxiao Li
Recurrent Neural Network Transformer Architecture Sequence Modeling Layer Transformer Approximation Rate

February 9, 2023

Binarized Neural Machine Translation
Yichi Zhang, Ankush Garg, Yuan Cao, Łukasz Lew, Behrooz Ghorbani, Zhiru Zhang, Orhan Firat
Binarization Method Layer Transformer Translation Datasets Bitwidth Quantization

January 30, 2023

December 24, 2022

Optimizing Deep Transformers for Chinese-Thai Low-Resource Translation
Wenjie Hao, Hongfei Xu, Lingling Mu, Hongying Zan
Low Resource Translation Quality Layer Transformer Deep Transformer Transformer Based Deep

October 26, 2022

Multilevel Transformer For Multimodal Emotion Recognition
Junyi He, Meimei Wu, Meng Li, Xiaobo Zhu, Feng Ye
Fine Grained Multimodal Emotion Recognition Multi Granularity Layer Transformer Fine Grained Emotion

October 2, 2022

June 7, 2022

Wavelet Prior Attention Learning in Axial Inpainting Network
Chenjie Cao, Chengrong Wang, Yuntao Zhang, Yanwei Fu
Deep Neural Network Layer Transformer Wavelet Attention

April 25, 2022

OCFormer: One-Class Transformer Network for Image Classification
Prerana Mukherjee, Chandan Kumar Roy, Swalpa Kumar Roy
Vision Transformer Image Classification Layer Transformer One Class Classification Novel Deep Learning Framework One Class Classifier

April 13, 2022

TangoBERT: Reducing Inference Cost by using Cascaded Architecture
Jonathan Mamou, Oren Pereg, Moshe Wasserblat, Roy Schwartz
Transformer Based Model NLP Task Inference Cost Layer Transformer Inference Speed

March 30, 2022

A Fast Transformer-based General-Purpose Lossless Compressor
Yu Mao, Yufei Cui, Tei-Wei Kuo, Chun Jason Xue
Layer Transformer

February 20, 2022

towards automatic transcription of polyphonic electric guitar music:a new dataset and a multi-loss transformer model
Yu-Hua Chen, Wen-Yi Hsiao, Tsu-Kuang Hsieh, Jyh-Shing Roger Jang, Yi-Hsuan Yang
Layer Transformer Audio Recording Automatic Transcription Guitar Tablature Multi Loss Transcription Model