Softmax Attention

Softmax attention, a core component of transformer networks, calculates weighted sums of input elements based on pairwise similarities, but its quadratic complexity limits scalability. Current research focuses on developing alternative attention mechanisms, such as linear attention, cosine attention, and sigmoid attention, to reduce computational cost while maintaining accuracy, often employing techniques like kernel methods, vector quantization, or novel normalization strategies. These efforts aim to improve the efficiency and applicability of transformer models for long sequences and large-scale applications in natural language processing, computer vision, and beyond.

Papers

April 20, 2023

Attention Scheme Inspired Softmax Regression
Yichuan Deng, Zhihang Li, Zhao Song
Large Language Model Convex Optimization Softmax Function Softmax Attention

February 9, 2023

Efficient Attention via Control Variates
Lin Zheng, Jianbo Yuan, Chong Wang, Lingpeng Kong
Attention Mechanism Softmax Attention Efficient Attention Control Variate

November 25, 2022

MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision Transformer with Heterogeneous Attention
Wenxuan Zeng, Meng Li, Wenjie Xiong, Tong Tong, Wen-jie Lu, Jin Tan, Runsheng Wang, Ru Huang
Vision Transformer High Efficiency Softmax Attention Multi Party Computation Heterogeneous Attention

November 23, 2022

Make-A-Story: Visual Memory Conditioned Consistent Story Generation
Tanzila Rahman, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Shweta Mahajan, Leonid Sigal
Story Generation Softmax Attention Story Visualization Semantic Actor Visual Memory

November 18, 2022

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference
Haoran You, Yunyang Xiong, Xiaoliang Dai, Bichen Wu, Peizhao Zhang, Haoqi Fan, Peter Vajda, Yingyan Lin
Vision Transformer Self Attention Softmax Attention ViT Lens Transformer Inference Linear Angular Attention

October 15, 2022

Linear Video Transformer with Feature Fixation
Kaiyue Lu, Zexiang Liu, Jianyuan Wang, Weixuan Sun, Zhen Qin, Dong Li, Xuyang Shen, Hui Deng, Xiaodong Han, Yuchao Dai, Yiran Zhong
Linear Attention Softmax Attention Fixation Prediction

July 28, 2022

Neural Architecture Search on Efficient Transformers and Beyond
Zexiang Liu, Dong Li, Kaiyue Lu, Zhen Qin, Weixuan Sun, Jiacheng Xu, Yiran Zhong
Neural Architecture Search Efficient Transformer Softmax Attention Efficient Attention

July 5, 2022

Softmax-free Linear Transformers
Jiachen Lu, Junge Zhang, Xiatian Zhu, Jianfeng Feng, Tao Xiang, Li Zhang
Vision Transformer Visual Recognition Softmax Attention Self Attention Matrix

June 21, 2022

Vicinity Vision Transformer
Weixuan Sun, Zhen Qin, Hui Deng, Jianyuan Wang, Yi Zhang, Kaihao Zhang, Nick Barnes, Stan Birchfield, Lingpeng Kong, Yiran Zhong
Vision Transformer Linear Attention Softmax Attention Local Transformer Convolution Based

June 17, 2022

SimA: Simple Softmax-free Attention for Vision Transformers
Soroush Abbasi Koohpayegani, Hamed Pirsiavash
Vision Transformer Softmax Function Softmax Attention Attention Block

June 12, 2022

Indirect-Instant Attention Optimization for Crowd Counting in Dense Scenes
Suyu Han, Guodong Wang, Donghua Liu
Attention Mechanism Global Attention Crowd Counting Softmax Attention Complex Scene Dimensional Attention Correlation Loss

April 10, 2022

Linear Complexity Randomized Self-attention Mechanism
Lin Zheng, Chong Wang, Lingpeng Kong
Importance Sampling Softmax Attention Self Attention Mechanism Random Feature Attention

March 29, 2022

Locality Matters: A Locality-Biased Linear Attention for Automatic Speech Recognition
Jingyu Sun, Guiping Zhong, Dinghao Zhou, Baoxiang Li, Yiran Zhong
Automatic Speech Recognition Linear Attention Softmax Attention Locality Sensitive

February 17, 2022

cosFormer: Rethinking Softmax in Attention
Zhen Qin, Weixuan Sun, Hui Deng, Dongxu Li, Yunshen Wei, Baohong Lv, Junjie Yan, Lingpeng Kong, Yiran Zhong
Human Attention Softmax Function Attention Matrix Softmax Attention Linear Transformer

November 18, 2021

You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling
Zhanpeng Zeng, Yunyang Xiong, Sathya N. Ravi, Shailesh Acharya, Glenn Fung, Vikas Singh
Self Attention Transformer Based Model External Sample Input Sequence Softmax Attention Locality Sensitive Hashing