Multi Head Attention

Multi-head attention is a mechanism within transformer networks that allows the model to attend to different aspects of input data simultaneously, improving performance on various tasks. Current research focuses on optimizing multi-head attention for efficiency, including exploring alternative architectures like grouped-query attention and methods to reduce computational complexity without sacrificing accuracy, such as pruning or low-precision approximations. These advancements are significant because they enable the application of transformer models to larger datasets and more complex problems across diverse fields, including image processing, audio classification, and natural language processing.

Papers

January 11, 2024

TAnet: A New Temporal Attention Network for EEG-based Auditory Spatial Attention Decoding with a Short Decision Window
Yuting Ding, Fei Chen
Temporal Attention Brain Computer Interface Multi Head Attention Auditory Attention Audio Recognition Electroencephalography Based Auditory Attention Faster Decision

October 28, 2023

TLM: Token-Level Masking for Transformers
Yangjun Wu, Kebin Fang, Dongxiang Zhang, Han Wang, Hao Zhang, Gang Chen
Transformer Megatron Decepticons Structured Dropout Multi Head Attention Multi Head Attention Mechanism Token Masking

October 26, 2023

Sliceformer: Make Multi-head Attention as Simple as Sorting in Discriminative Tasks
Shen Yuan, Hongteng Xu
Transformer Based Attention Layer Multi Head Attention Discriminative Task Model Slicing

October 23, 2023

Sentiment analysis with adaptive multi-head attention in Transformer
Fanfei Meng, Chen-Ao Wang
Transformer Based Sentiment Analysis Attention Mechanism Multi Head Attention Multi Head Review Dataset

October 16, 2023

October 11, 2023

Pit One Against Many: Leveraging Attention-head Embeddings for Parameter-efficient Multi-head Attention
Huiyin Xue, Nikolaos Aletras
Pre Trained Language Model Human Head Multi Head Attention Attention Head Multi Head Graph PIT

September 5, 2023

MA-VAE: Multi-head Attention-based Variational Autoencoder Approach for Anomaly Detection in Multivariate Time-series Applied to Automotive Endurance Powertrain Testing
Lucas Correia, Jan-Christoph Goos, Philipp Klein, Thomas Bäck, Anna V. Kononova
Anomaly Detection Variational Autoencoder Multivariate Time Series Multi Head Attention Industrial Datasets

August 7, 2023

RCMHA: Relative Convolutional Multi-Head Attention for Natural Language Modelling
Herman Sugiharto, Aradea, Husni Mubarok
Attention Module Multi Head Attention Multi Head Relative Positional Encoding Natural Language Model

July 11, 2023

Mao-Zedong At SemEval-2023 Task 4: Label Represention Multi-Head Attention Model With Contrastive Learning-Enhanced Nearest Neighbor Mechanism For Multi-Label Text Classification
Che Zhang, Ping'an Liu, Zhenyang Xiao, Haojun Fei
SemEval 2022 Task Computational Linguistics Multi Head Attention Multi Label Text Classification Human Value Multi Head Attention Mechanism Nearest Neighbor Contrastive Learning

July 2, 2023

A Dual-Stream Recurrence-Attention Network With Global-Local Awareness for Emotion Recognition in Textual Dialog
Jiang Li, Xiaoping Wang, Zhigang Zeng
Recurrent Neural Network Emotion Recognition Global Attention Multi Head Attention Stream Attention

June 2, 2023

A Novel Vision Transformer with Residual in Self-attention for Biomedical Image Classification
Arun K. Sharma, Nishchal K. Verma
Vision Transformer Self Attention Multi Head Self Attention Multi Head Attention Biomedical Image Brain Tumor Detection Residual Stream Novel Vision Transformer

May 22, 2023

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai
Training Data Multi Head Attention Query Attention Decoder Model Query Transformer Intermediate Checkpoint

May 21, 2023

Multi-Head State Space Model for Speech Recognition
Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales
Speech Recognition State Space Multi Head Attention Librispeech Speech Recognition Language Modeling Task Transformer Encoders

May 4, 2023

On the Expressivity Role of LayerNorm in Transformers' Attention
Shaked Brody, Uri Alon, Eran Yahav
Transformer Megatron Decepticons Human Attention Transformer Based Model Attention Layer Multi Head Attention Layer Normalization Expressivity Transfer Tuning LayerNorm

April 13, 2023

SpectFormer: Frequency and Attention is what you need in a Vision Transformer
Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran
Vision Transformer Human Attention High Frequency Multi Head Self Attention Recognition Task Multi Head Attention Transformer Representation

February 13, 2023

A Unified View of Long-Sequence Models towards Modeling Million-Scale Dependencies
Hongyu Hè, Marko Kabic
Transformer Based Model Sequence Model Multi Head Attention Unified View Long Range Dependency Attention Computation Multi Head Attention Mechanism

February 8, 2023

Cross-Layer Retrospective Retrieving via Layer Attention
Yanwen Fang, Yuxi Cai, Jintai Chen, Jingyu Zhao, Guangjian Tian, Guodong Li
Vision Transformer Attention Layer Multi Head Attention Cross Layer Cross Layer Attention

December 12, 2022

A Neural ODE Interpretation of Transformer Layers
Yaofeng Desmond Zhong, Tongtao Zhang, Amit Chakraborty, Biswadip Dey
Multi Layer Neural ODE Transformer Network Multi Head Attention Transformer Layer

October 11, 2022

Mixture of Attention Heads: Selecting Attention Heads Per Token
Xiaofeng Zhang, Yikang Shen, Zeyu Huang, Jie Zhou, Wenge Rong, Zhang Xiong
Transformer Architecture Mixture Component Deep Model K TOKEN Multi Head Attention Attention Head Masked Language Modeling

Multi Head Attention

Papers

TAnet: A New Temporal Attention Network for EEG-based Auditory Spatial Attention Decoding with a Short Decision Window

TLM: Token-Level Masking for Transformers

Sliceformer: Make Multi-head Attention as Simple as Sorting in Discriminative Tasks

Sentiment analysis with adaptive multi-head attention in Transformer

On the Relevance of Temporal Features for Medical Ultrasound Video Recognition

Interpreting and Exploiting Functional Specialization in Multi-Head Attention under Multi-task Learning

Pit One Against Many: Leveraging Attention-head Embeddings for Parameter-efficient Multi-head Attention

MA-VAE: Multi-head Attention-based Variational Autoencoder Approach for Anomaly Detection in Multivariate Time-series Applied to Automotive Endurance Powertrain Testing

RCMHA: Relative Convolutional Multi-Head Attention for Natural Language Modelling

Mao-Zedong At SemEval-2023 Task 4: Label Represention Multi-Head Attention Model With Contrastive Learning-Enhanced Nearest Neighbor Mechanism For Multi-Label Text Classification

A Dual-Stream Recurrence-Attention Network With Global-Local Awareness for Emotion Recognition in Textual Dialog

A Novel Vision Transformer with Residual in Self-attention for Biomedical Image Classification

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

Multi-Head State Space Model for Speech Recognition

On the Expressivity Role of LayerNorm in Transformers' Attention

SpectFormer: Frequency and Attention is what you need in a Vision Transformer

A Unified View of Long-Sequence Models towards Modeling Million-Scale Dependencies

Cross-Layer Retrospective Retrieving via Layer Attention

A Neural ODE Interpretation of Transformer Layers

Mixture of Attention Heads: Selecting Attention Heads Per Token