Multi Head Attention

Multi-head attention is a mechanism within transformer networks that allows the model to attend to different aspects of input data simultaneously, improving performance on various tasks. Current research focuses on optimizing multi-head attention for efficiency, including exploring alternative architectures like grouped-query attention and methods to reduce computational complexity without sacrificing accuracy, such as pruning or low-precision approximations. These advancements are significant because they enable the application of transformer models to larger datasets and more complex problems across diverse fields, including image processing, audio classification, and natural language processing.

Papers

August 5, 2024

A Novel Hybrid Approach for Tornado Prediction in the United States: Kalman-Convolutional BiLSTM with Multi-Head Attention
Jiawei Zhou
Multi Head Attention Hybrid Approach Radar Data United State CNN BiLSTM Multiple Radar Severe Weather Tornado Prediction

August 2, 2024

Multi-head Spatial-Spectral Mamba for Hyperspectral Image Classification
Muhammad Ahmad, Muhammad Hassaan Farooq Butt, Muhammad Usama, Hamad Ahmed Altuwaijri, Manuel Mazzara, Salvatore Distefano
Hyperspectral Image Classification Multi Head Self Attention Multi Head Attention Spectral Information Spectral Token Spatial Spectral Mamba

July 21, 2024

Improving Prediction of Need for Mechanical Ventilation using Cross-Attention
Anwesh Mohanty, Supreeth P. Shashikumar, Jonathan Y. Lam, Shamim Nemati
Cross Attention Community Need Multi Head Attention Intensive Care Unit Intensive Care Dfa GNN Improving Prediction Mechanical Ventilation

June 21, 2024

Optimised Grouped-Query Attention Mechanism for Transformers
Yuang Chen, Cheng Zhang, Xitong Gao, Robert D. Mullins, George A. Constantinides, Yiren Zhao
Transformer Megatron Decepticons Multi Head Attention Query Attention Activation Maximization

June 12, 2024

Analyzing Multi-Head Attention on Trojan BERT Models
Jingwei Wang
Sentiment Analysis Human Attention Transformer Model Multi Head Attention Trojaned Model

June 11, 2024

Effectively Compress KV Heads for LLM
Hao Yu, Zelan Yang, Shen Li, Yong Li, Jianxin Wu
Medical LLM Pre Trained Large Language Model Multi Head Attention Query Attention KV Cache Compression

June 9, 2024

Attention as a Hypernetwork
Simon Schug, Seijin Kobayashi, Yassir Akram, João Sacramento, Razvan Pascanu
Human Attention Compositional Generalization Multi Head Attention Latent Code Multi Head Non Graph Hypernetwork Baseline

June 7, 2024

Multi-Head RAG: Solving Multi-Aspect Problems with LLMs
Maciej Besta, Ales Kubicek, Roman Niggli, Robert Gerstenberger, Lucas Weitzendorf, Mingyuan Chi, Patrick Iff, Joanna Gajda, Piotr Nyczyk, Jürgen Müller, Hubert Niewiadomski, Marcin Chrapek, Michał Podstawski, Torsten Hoefler
Large Language Model Retrieval Augmented Generation Retrieval Performance Multi Head Attention Mixed Task Multi Document

June 3, 2024

DHA: Learning Decoupled-Head Attention from Transformer Checkpoints via Adaptive Heads Fusion
Yilong Chen, Linhao Zhang, Junyuan Shang, Zhenyu Zhang, Tingwen Liu, Shuohuan Wang, Yu Sun
Large Language Model Human Attention Information Redundancy Multi Head Attention Model Checkpoint Query Attention Effective Fusion

May 31, 2024

Automatic Channel Pruning for Multi-Head Attention
Eunho Lee, Youngbae Hwang
Attention Mechanism Multi Head Attention Channel Pruning Multi Head Attention Mechanism

May 30, 2024

Why Larger Language Models Do In-context Learning Differently?
Zhenmei Shi, Junyi Wei, Zhuoyan Xu, Yingyu Liang
Large Language Model Context Learning Multi Head Attention Larger Language Model Layer Transformer

May 26, 2024

Disentangling and Integrating Relational and Sensory Information in Transformer Architectures
Awni Altabaa, John Lafferty
Attention Mechanism Transformer Architecture Message Passing Multi Head Attention Sensory Input Disentangle Content Relational Concept

May 14, 2024

Improving Transformers with Dynamically Composable Multi-Head Attention
Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan
Transformer Megatron Decepticons Human Attention Transformer Architecture Multi Head Attention Composable Framework

April 18, 2024

Transformer tricks: Removing weights for skipless transformers
Nils Graef
Balancing Weight Multi Head Attention Skip Transformer

April 11, 2024

LATTE: Low-Precision Approximate Attention with Head-wise Trainable Threshold for Efficient Transformer
Jiing-Ping Wang, Ming-Guang Lin, An-Yeu, Wu
Efficient Transformer Multi Head Attention Approximate Attention

March 22, 2024

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models
Qiong Wu, Weihao Ye, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji
Human Attention Many Parameter Multi Modal Large Language Model Information Redundancy Multi Head Attention Inference Speed Efficient Transfer Learning Skip Attention

March 16, 2024

EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration
Abu Zahid Bin Aziz, Mokshagna Sai Teja Karanam, Tushar Kataria, Shireen Y. Elhabian
Attention Mechanism Image Registration Medical Image Registration Efficient Transformer Multi Head Attention

February 16, 2024

LongHeads: Multi-Head Attention is Secretly a Long Context Processor
Yi Lu, Xin Zhou, Wei He, Jun Zhao, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
Large Language Model Long Context Multi Head Attention Length Generalization

February 6, 2024

Provably learning a multi-head attention layer
Sitan Chen, Yuanzhi Li
Large Language Model Transformer Architecture Multi Head Attention Attention Matrix

January 30, 2024

Superiority of Multi-Head Attention in In-Context Linear Regression
Yingqian Cui, Jie Ren, Pengfei He, Jiliang Tang, Yue Xing
Human Attention Transformer Architecture Multi Head Attention Attention Head Softmax Attention