Attention Head

Attention heads, the fundamental building blocks of transformer-based models, are crucial for processing information in sequence data. Current research focuses on understanding their functional specialization during training, optimizing their efficiency for large language models (LLMs) through techniques like sparse attention and head clustering, and leveraging their internal representations for improved model interpretability and performance in various tasks. This work is significant because it addresses both the computational challenges of deploying LLMs and the need for better understanding and control over their internal mechanisms, ultimately leading to more efficient and effective AI systems.

Papers

August 30, 2024

Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering
Nicholas Pochinkov, Ben Pasero, Skylar Shibayama
Vision Transformer Attention Mechanism Transformer Based Model Case Relevance Activation Function Attention Head

July 25, 2024

S2-Attention: Hardware-Aware Context Sharding Among Attention Heads
Xihui Lin, Yunan Zhang, Suyu Ge, Liliang Ren, Barun Patra, Vishrav Chaudhary, Hao Peng, Xia Song
Heterogeneous Graph Inference Latency Attention Head Inference Framework LLM Training Inference Engine

July 23, 2024

On the Benefits of Rank in Attention Layers
Noah Amsel, Gilad Yehudai, Joan Bruna
Attention Mechanism Attention Layer Complementary Benefit Stable Rank Attention Head Attention Matrix Low Rank Attention

July 15, 2024

Towards Enhanced Classification of Abnormal Lung sound in Multi-breath: A Light Weight Multi-label and Multi-head Attention Classification Method
Yi-Wei Chua, Yun-Chien Cheng
Attention Head Respiratory Sound Improved Classification Sound Classification Lung Sound Breath Detection

June 27, 2024

Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads
Ali Khaleghi Rahimian, Manish Kumar Govind, Subhajit Maity, Dominick Reilly, Christian Kümmerle, Srijan Das, Aritra Dutta
Vision Transformer Visual Representation Learning Attention Head Sparse Transformer Sparse Architecture

June 1, 2024

You Only Need Less Attention at Each Stage in Vision Transformers
Shuoxi Zhang, Hanpeng Liu, Stephen Lin, Kun He
Vision Transformer Attention Head Self Attention Module Light Stage

May 27, 2024

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention
Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong
Language Model Linear Attention Attention Head Kernel Attention Crown Rump Length

March 12, 2024

CHAI: Clustered Head Attention for Efficient LLM Inference
Saurabh Agarwal, Bilge Acun, Basil Hosmer, Mostafa Elhoushi, Yejin Lee, Shivaram Venkataraman, Dimitris Papailiopoulos, Carole-Jean Wu
Self Attention LLM Inference Inference Latency Attention Head

February 4, 2024

NOAH: Learning Pairwise Object Category Attentions for Image Classification
Chao Li, Aojun Zhou, Anbang Yao
Convolutional Neural Network Deep Neural Network Image Classification Attention Head Pairwise Attention Category Specific Attention

January 30, 2024

Superiority of Multi-Head Attention in In-Context Linear Regression
Yingqian Cui, Jie Ren, Pengfei He, Jiliang Tang, Yue Xing
Human Attention Transformer Architecture Multi Head Attention Attention Head Softmax Attention

January 9, 2024

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models
Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong
Linear Attention Attention Head Sequence Generation Free Lunch

December 15, 2023

Picking the Underused Heads: A Network Pruning Perspective of Attention Head Selection for Fusing Dialogue Coreference Information
Zhengyuan Liu, Nancy F. Chen
Human Head Multi Head Self Attention Attention Head Network Pruning Dialogue Summarization Transformer Based Summarization Model Dialogue Coreference

October 20, 2023

Plausibility Processing in Transformer Language Models: Focusing on the Role of Attention Heads in GPT
Soo Hyun Ryu
Integral Role GPT Neo Transformer Language Model Attention Head Semantic Knowledge Plausibility Processing

October 19, 2023

On the Optimization and Generalization of Multi-head Attention
Puneesh Deora, Rouzbeh Ghaderi, Hossein Taheri, Christos Thrampoulidis
Strong Generalization Optimization Purpose Attention Mechanism Model Generalization Multi Head Self Attention Attention Head

October 11, 2023

Pit One Against Many: Leveraging Attention-head Embeddings for Parameter-efficient Multi-head Attention
Huiyin Xue, Nikolaos Aletras
Pre Trained Language Model Human Head Multi Head Attention Attention Head Multi Head Graph PIT

October 6, 2023

Copy Suppression: Comprehensively Understanding an Attention Head
Callum McDougall, Arthur Conmy, Cody Rushing, Thomas McGrath, Neel Nanda
Attention Head Attention Operation Copy Suppression Downstream Policy Learning Self Repair

October 3, 2023

Ring Attention with Blockwise Transformers for Near-Infinite Context
Hao Liu, Matei Zaharia, Pieter Abbeel
Context Length Attention Head Streaming Transformer

September 28, 2023

Attention Sorting Combats Recency Bias In Long Context Language Models
Alexander Peysakhovich, Adam Lerer
Language Model Long Context Attention Head Long Context Language Recency Bias

September 19, 2023

RedPenNet for Grammatical Error Correction: Outputs to Tokens, Attentions to Spans
Bohdan Didenko, Andrii Sameliuk
Neural Machine Translation K TOKEN Grammatical Error Correction Attention Head Autoregressive Generation Text Editing Substitute Span

September 15, 2023

Attention-Only Transformers and Implementing MLPs with Attention Heads
Robert Huben, Valerie Morris
Transformer Architecture Attention Head MLP Layer Attention Transformer