Sparse Attention

Sparse attention techniques aim to improve the efficiency of transformer-based models, particularly large language models (LLMs), by reducing the computational cost of the attention mechanism from quadratic to linear or near-linear complexity. Current research focuses on developing novel algorithms and architectures, such as those employing dynamic sparse attention, hierarchical pruning, and various forms of token selection and merging, to achieve this efficiency while minimizing performance degradation. These advancements are significant because they enable the processing of longer sequences and larger models, impacting both the scalability of LLMs and their applicability to resource-constrained environments.

Papers

October 18, 2022

ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and Accelerator Co-Design
Haoran You, Zhanyi Sun, Huihong Shi, Zhongzhi Yu, Yang Zhao, Yongan Zhang, Chaojian Li, Baopu Li, Yingyan Lin
Vision Transformer Practical Algorithm Sparse Attention Attention Computation Transformer Training SParse ATtention Accelerator Design

October 4, 2022

Accurate Image Restoration with Attention Retractable Transformer
Jiale Zhang, Yulun Zhang, Jinjin Gu, Yongbing Zhang, Linghe Kong, Xin Yuan
Image Restoration Attention Layer Sparse Attention Attention Transformer

September 30, 2022

Adaptive Sparse and Monotonic Attention for Transformer-based Automatic Speech Recognition
Chendong Zhao, Jianzong Wang, Wen qi Wei, Xiaoyang Qu, Haoqian Wang, Jing Xiao
Sparse Attention Multi Head Attention Mechanism Transformer Based Automatic Speech Recognition Attention Regularization Position Aware Attention Adaptive Sparsity

September 1, 2022

Sparse Attention Acceleration with Synergistic In-Memory Pruning and On-Chip Recomputation
Amir Yazdanbakhsh, Ashkan Moradifirouzabadi, Zheng Li, Mingu Kang
Self Attention Sparse Attention Crossbar Array Attention Based Correlation Module

August 28, 2022

ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers
Yutong Xie, Jianpeng Zhang, Yong Xia, Anton van den Hengel, Qi Wu
Vision Transformer Self Attention Transformer Architecture Sparse Attention Dense Prediction Patch Attention

August 9, 2022

Multiple Instance Neural Networks Based on Sparse Attention for Cancer Detection using T-cell Receptor Sequences
Younghoon Kim, Tao Wang, Danyi Xiong, Xinlei Wang, Seongoh Park
Multiple Instance Learning Sparse Attention Cancer Detection Multiple Instance Cell Receptor TCR Sequence

August 8, 2022

Sparse Attentive Memory Network for Click-through Rate Prediction with Long Sequences
Qianying Lin, Wen-Ji Zhou, Yanshi Wang, Qing Da, Qing-Guo Chen, Bing Wang
Sequential Recommendation Long Sequence Click Through Rate Prediction Sparse Attention User Behavior Modeling

August 7, 2022

A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA Through Sparse Attention and Dynamic Pipelining
Hongwu Peng, Shaoyi Huang, Shiyang Chen, Bingbing Li, Tong Geng, Ang Li, Weiwen Jiang, Wujie Wen, Jinbo Bi, Hang Liu, Caiwen Ding
Transformer Based Transformer Model Field Programmable Gate Array Sparse Attention Length Constraint Transformer Accelerator

July 28, 2022

SDBERT: SparseDistilBERT, a faster and smaller BERT model
Devaraju Vinoda, Pawan Kumar Yadav
Knowledge Distillation BERT Model BERT Based Sparse Attention SParse ATtention

July 13, 2022

DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation
Songhua Liu, Jingwen Ye, Sucheng Ren, Xinchao Wang
Sparse Attention Sparse Transformer Person Image Generation Exemplar Guided Image Attention Scheme

July 4, 2022

Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks
Yongming Rao, Zuyan Liu, Wenliang Zhao, Jie Zhou, Jiwen Lu
Convolutional Neural Network Vision Transformer Sparse Attention Hierarchical Vision Transformer Dynamic Sparsity

June 29, 2022

June 20, 2022

S2RL: Do We Really Need to Perceive All States in Deep Multi-Agent Reinforcement Learning?
Shuang Luo, Yinchuan Li, Jiahui Li, Kun Kuang, Furui Liu, Yunfeng Shao, Chao Wu
Multi Agent Reinforcement Learning Attention Mechanism Sparse Attention State Specific Decision Making SParse ATtention

May 27, 2022

Understanding Long Programming Languages with Structure-Aware Sparse Attention
Tingting Liu, Chengyu Wang, Cen Chen, Ming Gao, Aoying Zhou
Sparse Attention Structured Attention Code Understanding Task

May 24, 2022

ASSET: Autoregressive Semantic Scene Editing with Transformers at High Resolutions
Difan Liu, Sandesh Shetty, Tobias Hinz, Matthew Fisher, Richard Zhang, Taesung Park, Evangelos Kalogerakis
Transformer Megatron Decepticons Attention Mechanism High Resolution Sparse Attention Attention Matrix Semantic Image Editing Semantic Segmentation Map Individual Production Asset

April 14, 2022

Revisiting Transformer-based Models for Long Document Classification
Xiang Dai, Ilias Chalkidis, Sune Darkner, Desmond Elliott
Text Classification Transformer Based Model Sparse Attention Long Document Classification

March 23, 2022

ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through Regularized Self-Attention
Yang Liu, Jiaxiang Liu, Li Chen, Yuxiang Lu, Shikun Feng, Zhida Feng, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
Self Attention Sparse Attention Hierarchical Transformer Sparse Transformer

February 28, 2022

Dynamic N:M Fine-grained Structured Sparse Attention Mechanism
Zhaodong Chen, Yuying Quan, Zheng Qu, Liu Liu, Yufei Ding, Yuan Xie
Attention Mechanism Sparse Attention Dynamic Pruning Attention Weight Matrix

Sparse Attention

Papers

ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and Accelerator Co-Design

Accurate Image Restoration with Attention Retractable Transformer

Adaptive Sparse and Monotonic Attention for Transformer-based Automatic Speech Recognition

Sparse Attention Acceleration with Synergistic In-Memory Pruning and On-Chip Recomputation

ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers

Multiple Instance Neural Networks Based on Sparse Attention for Cancer Detection using T-cell Receptor Sequences

Sparse Attentive Memory Network for Click-through Rate Prediction with Long Sequences

A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA Through Sparse Attention and Dynamic Pipelining

SDBERT: SparseDistilBERT, a faster and smaller BERT model

DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation

Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks

SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention Mechanisms for Long Sequences

SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object Detection and Tracking

Deformable Graph Transformer

S2RL: Do We Really Need to Perceive All States in Deep Multi-Agent Reinforcement Learning?

Understanding Long Programming Languages with Structure-Aware Sparse Attention

ASSET: Autoregressive Semantic Scene Editing with Transformers at High Resolutions

Revisiting Transformer-based Models for Long Document Classification

ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through Regularized Self-Attention

Dynamic N:M Fine-grained Structured Sparse Attention Mechanism