Attention Sink

Attention sink refers to the disproportionate allocation of attention in large language models (LLMs) to certain tokens, often initial tokens, regardless of their semantic importance. Current research focuses on understanding the causes and consequences of this phenomenon, particularly within structured state space models and transformer architectures, and exploring methods to harness or mitigate its effects, such as attention calibration techniques and strategic prefixing. These investigations aim to improve LLM performance, efficiency (especially in streaming applications), and robustness, particularly concerning quantization and handling of extremely long sequences.

Papers

October 8, 2024

Does RoBERTa Perform Better than BERT in Continual Learning: An Attention Sink Perspective
Xueying Bai, Yifan Sun, Niranjan Balasubramanian
Continual LEArning Pre Trained Model Ticket BERT Single Task Learning Inverse Scaling Attention Sink

August 1, 2024

Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms
Tian Meng, Yang Tao, Wuliang Yin
Language Model State Space Model Matrix Multiplication Impulse Response Sequence Modeling Task Attention Sink

June 22, 2024

Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration
Zhongzhi Yu, Zheng Wang, Yonggan Fu, Huihong Shi, Khalid Shaikh, Yingyan Celine Lin
Large Language Model Attention Mechanism Attention Calibration Attention Sink

June 17, 2024

Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization
Seungwoo Son, Wonpyo Park, Woohyun Han, Kyuyeun Kim, Jaeho Lee
Large Language Model Activation Quantization LLM Quantization Attention Sink Per Tensor

February 14, 2024

Spectral Filters, Dark Signals, and Attention Sinks
Nicola Cancedda
Projection Bias Intermediate Representation Second Ranked Logits Transformer Based LLM Weak Signal Attention Sink

September 29, 2023

Efficient Streaming Language Models with Attention Sinks
Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis
Attention Sink

Attention Sink

Papers

Does RoBERTa Perform Better than BERT in Continual Learning: An Attention Sink Perspective

Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms

Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration

Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization

Spectral Filters, Dark Signals, and Attention Sinks

Efficient Streaming Language Models with Attention Sinks