Self Attention Layer

Self-attention layers are a core component of Transformer networks, enabling these models to process sequential data by weighting the importance of different elements within the sequence. Current research focuses on improving the efficiency and theoretical understanding of self-attention, including exploring its optimization dynamics, analyzing its role in generalization and hallucination in large language models, and developing alternative attention mechanisms like Locality Sensitive Hashing or polynomial-based approaches to reduce computational cost. These advancements are driving improvements in various applications, from image segmentation and super-resolution to natural language processing and visual place recognition, by enhancing model performance and scalability.

Papers

May 25, 2023

Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer
Yuandong Tian, Yiping Wang, Beidi Chen, Simon Du
Transformer Based Transformer Architecture Training Dynamic Self Attention Layer Next Token Prediction Compound Token Snap Video Decoder Layer

May 23, 2023

Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models
Ruichen Wang, Zekang Chen, Chen Chen, Jian Ma, Haonan Lu, Xiaodong Lin
Diffusion Model Text to Image Attention Map Self Attention Layer Attention Masking Compositional Text to Image Attention Region

May 22, 2023

Bright Channel Prior Attention for Multispectral Pedestrian Detection
Chenhang Cui, Jinyu Xie, Yechenhao Yang
Channel Attention Self Attention Layer Pedestrian Detection Self Attention Module MultiSpectral Pedestrian Detection

May 16, 2023

Mimetic Initialization of Self-Attention Layers
Asher Trockman, J. Zico Kolter
Vision Task Pre Trained Transformer Large Pre Trained Model Self Attention Layer ImageNet Classification Meta Initialization

April 3, 2023

WeakTr: Exploring Plain Vision Transformer for Weakly-supervised Semantic Segmentation
Lianghui Zhu, Yingyue Li, Jiemin Fang, Yan Liu, Hao Xin, Wenyu Liu, Xinggang Wang
Vision Transformer Weakly Supervised Semantic Segmentation Self Attention Layer Plain Vision Transformer

March 22, 2023

Self-supervised Learning with Speech Modulation Dropout
Samik Sadhu, Hynek Hermansky
Self Supervised Learning Multi Head Self Attention Self Attention Layer Temporal Context

March 7, 2023

February 12, 2023

A Theoretical Understanding of Shallow Vision Transformers: Learning, Generalization, and Sample Complexity
Hongkang Li, Meng Wang, Sijia Liu, Pin-yu Chen
LeArning Abstract Vision Transformer Strong Generalization Theoretical Understanding Sample Complexity Attention Map Self Attention Layer Self Attention Module Shallow Transformer

January 27, 2023

On the Connection Between MPNN and Graph Transformer
Chen Cai, Truong Son Hy, Rose Yu, Yusu Wang
Graph Transformer Graph Learning Self Attention Layer New Connection Message Passing Neural Network Graph Benchmark

January 22, 2023

Interpretability in Activation Space Analysis of Transformers: A Focused Survey
Soniya Vijayakumar
Transformer Megatron Decepticons Latent Space Inherent Interpretability Comprehensive Survey Attention Layer Self Attention Layer Feed Forward Layer Activation Space

January 4, 2023

Infomaxformer: Maximum Entropy Transformer for Long Time-Series Forecasting Problem
Peiwang Tang, Xianchao Zhang
Transformer Architecture Temporal Dependency Self Attention Layer Long Term Time Series Forecasting Encoder Decoder Architecture Long Range Dependency Transformer Based Entropy Model

October 13, 2022

Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer
Yanjing Li, Sheng Xu, Baochang Zhang, Xianbin Cao, Peng Gao, Guodong Guo
Vision Transformer Multiplier Free Quantization Self Attention Layer Pre Trained Vision Transformer Bit Vision Transformer

October 9, 2022

KSAT: Knowledge-infused Self Attention Transformer -- Integrating Multiple Domain-Specific Contexts
Kaushik Roy, Yuxin Zi, Vignesh Narayanan, Manas Gaur, Amit Sheth
Self Attention Self Attention Layer Domain Specific Task

September 30, 2022

Verifiable and Energy Efficient Medical Image Analysis with Quantised Self-attentive Deep Neural Networks
Rakshith Sathish, Swanand Khare, Debdoot Sheet
Convolutional Neural Network Medical Image Analysis Convolutional Layer Self Attention Layer Traditional CNNs

September 20, 2022

Relaxed Attention for Transformer Models
Timo Lohrenz, Björn Möller, Zhengyang Li, Tim Fingscheidt
Transformer Model Self Attention Layer Confidence Relaxation Autoregressive Decoder

September 19, 2022

Integrative Feature and Cost Aggregation with Transformers for Dense Correspondence
Sunghwan Hong, Seokju Cho, Seungryong Kim, Stephen Lin
Transformer Megatron Decepticons Self Attention Layer Dense Correspondence Transformer Based Neural Network Dense Matching Cost Volume Cost Aggregation

August 18, 2022

Learning Spatial-Frequency Transformer for Visual Object Tracking
Chuanming Tang, Xiao Wang, Yuanchao Bai, Zhe Wu, Jianlin Zhang, Yongmei Huang
LeArning Abstract Self Attention Layer Visual Object Tracking Siamese Tracker Spectral Spatial Transformer

August 4, 2022

DropKey
Bonan Li, Yinhan Hu, Xuecheng Nie, Congying Han, Xiangjian Jiang, Tiande Guo, Luoqi Liu
Vision Transformer Softmax Function Structured Dropout Self Attention Layer

July 5, 2022

Weakly Supervised Grounding for VQA in Vision-Language Transformers
Aisha Urooj Khan, Hilde Kuehne, Chuang Gan, Niels Da Vitoria Lobo, Mubarak Shah
Visual Question Answering Visual Grounding Self Attention Layer Visual Encoder Vision Language Transformer