Attention Head

Attention heads, the fundamental building blocks of transformer-based models, are crucial for processing information in sequence data. Current research focuses on understanding their functional specialization during training, optimizing their efficiency for large language models (LLMs) through techniques like sparse attention and head clustering, and leveraging their internal representations for improved model interpretability and performance in various tasks. This work is significant because it addresses both the computational challenges of deploying LLMs and the need for better understanding and control over their internal mechanisms, ultimately leading to more efficient and effective AI systems.

Papers

September 15, 2023

Attention-Only Transformers and Implementing MLPs with Attention Heads
Robert Huben, Valerie Morris
Transformer Architecture Attention Head MLP Layer Attention Transformer

August 30, 2023

Learning Diverse Features in Vision Transformers for Improved Generalization
Armand Mihai Nicolicioiu, Andrei Liviu Nicolicioiu, Bogdan Alexe, Damien Teney
Vision Transformer Deep Learning Model Attention Head Improved Generalization Feature Diversity MNIST Canadian Institute for Advanced Input Gradient

July 11, 2023

A Modular Multimodal Architecture for Gaze Target Prediction: Application to Privacy-Sensitive Settings
Anshul Gupta, Samy Tafasca, Jean-Marc Odobez
Application Proficiency Attention Mechanism Attention Head Provider Gaze Privacy Sensitive Gaze Prediction Multi Modal Cue Multimodal Architecture

June 22, 2023

Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing
Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort
Language Model Vision Transformer Transformer Model Attention Head Quantized Transformer

May 22, 2023

Finding the Pillars of Strength for Multi-Head Attention
Jinjie Ni, Rui Mao, Zonglin Yang, Han Lei, Erik Cambria
Self Supervised Human Attention Feature Selection Attention Head Estimated Team Strength Pillar Domain

May 19, 2023

AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide for Simultaneous Speech Translation
Sara Papi, Marco Turchi, Matteo Negri
Speech Translation Attention Based Practical Guide LD Align Attention Head Simultaneous Speech Translation Source Alignment

March 16, 2023

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing
Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei, Xintao Wang, Ying Shan, Qifeng Chen
Zero Shot Text to Video Attention Head

March 14, 2023

Automatic Attention Pruning: Improving and Automating Model Pruning using Attentions
Kaiqi Zhao, Animesh Jain, Ming Zhao
Attention Map Structured Pruning Model Pruning Attention Head Iterative Pruning Attention Pruning

March 2, 2023

Improving Transformer-based End-to-End Speaker Diarization by Assigning Auxiliary Losses to Attention Heads
Ye-Rin Jeoung, Joon-Young Yang, Jeong-Hwan Choi, Joon-Hyuk Chang
End to End Speaker Diarization Attention Head Auxiliary Loss Speaker Independent Speech Pattern End to End Speaker Diarization Attention Weight Matrix

February 1, 2023

Attention Link: An Efficient Attention-Based Low Resource Machine Translation Architecture
Zeping Min
Machine Translation Transformer Model Parallel Corpus Attention Head Attention Based Architecture Low Resource Neural Machine Translation NMT Model

December 7, 2022

Teaching Matters: Investigating the Role of Supervision in Vision Transformers
Matthew Walmer, Saksham Suri, Kamal Gupta, Abhinav Shrivastava
Vision Transformer Integral Role Global Attention Good Teacher Attention Head Contrastive Self Supervised Learning

October 18, 2022

Tiny-Attention Adapter: Contexts Are More Important Than the Number of Parameters
Hongyu Zhao, Hao Tan, Hongyuan Mei
Context Information Many Parameter Numerical Data Attention Head Parameter Efficient Transfer Learning Adapter Tuning Attention Based Adapter

October 17, 2022

Attention Attention Everywhere: Monocular Depth Prediction with Skip Attention
Ashutosh Agarwal, Chetan Arora
Deep Convolutional Neural Network Monocular Depth Estimation Attention Based Attention Head Pixel Wise Depth Skip Attention

October 11, 2022

Mixture of Attention Heads: Selecting Attention Heads Per Token
Xiaofeng Zhang, Yikang Shen, Zeyu Huang, Jie Zhou, Wenge Rong, Zhang Xiong
Transformer Architecture Mixture Component Deep Model K TOKEN Multi Head Attention Attention Head Masked Language Modeling

September 15, 2022

Number of Attention Heads vs Number of Transformer-Encoders in Computer Vision
Tomas Hrycej, Bernhard Bermeitinger, Siegfried Handschuh
Computer Vision Transformer Architecture Numerical Data Attention Head Transformer Encoders Generalization Capability Parallel Transformer

September 14, 2022

Combining Metric Learning and Attention Heads For Accurate and Efficient Multilabel Image Classification
Kirill Prokofiev, Vladislav Sovrasov
Multi Label Attention Head Multi Label Image Classification Multiclass Classification Head Transformer Multilabel Classification

September 4, 2022

Informative Language Representation Learning for Massively Multilingual Neural Machine Translation
Renren Jin, Deyi Xiong
Language Representation Multilingual Neural Machine Translation Attention Head

July 31, 2022

CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point Cloud Learning
Mahdi Saleh, Yige Wang, Nassir Navab, Benjamin Busam, Federico Tombari
Global Attention Multi Head Attention Attention Head Cloud Detection Point Cloud Learning

July 7, 2022

Attention Round for Post-Training Quantization
Huabin Diao, Gongyan Li, Shaoyun Xu, Yuexing Hao
Quantization Operator Post Training Quantization Mixed Precision Quantization Attention Head Quantization Step Quantization Performance

May 26, 2022

Fast Vision Transformers with HiLo Attention
Zizheng Pan, Jianfei Cai, Bohan Zhuang
Vision Transformer Self Attention Vision Task Attention Layer Multi Head Self Attention Attention Head Fast Vision Transformer

Attention Head

Papers

Attention-Only Transformers and Implementing MLPs with Attention Heads

Learning Diverse Features in Vision Transformers for Improved Generalization

A Modular Multimodal Architecture for Gaze Target Prediction: Application to Privacy-Sensitive Settings

Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

Finding the Pillars of Strength for Multi-Head Attention

AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide for Simultaneous Speech Translation

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

Automatic Attention Pruning: Improving and Automating Model Pruning using Attentions

Improving Transformer-based End-to-End Speaker Diarization by Assigning Auxiliary Losses to Attention Heads

Attention Link: An Efficient Attention-Based Low Resource Machine Translation Architecture

Teaching Matters: Investigating the Role of Supervision in Vision Transformers

Tiny-Attention Adapter: Contexts Are More Important Than the Number of Parameters

Attention Attention Everywhere: Monocular Depth Prediction with Skip Attention

Mixture of Attention Heads: Selecting Attention Heads Per Token

Number of Attention Heads vs Number of Transformer-Encoders in Computer Vision

Combining Metric Learning and Attention Heads For Accurate and Efficient Multilabel Image Classification

Informative Language Representation Learning for Massively Multilingual Neural Machine Translation

CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point Cloud Learning

Attention Round for Post-Training Quantization

Fast Vision Transformers with HiLo Attention