Cross Attention

Cross-attention is a mechanism that allows neural networks to relate information from different parts of an input, such as relating words in a sentence to pixels in an image, or aligning audio and video streams. Current research focuses on improving the efficiency and effectiveness of cross-attention in various applications, including image generation, video processing, and multimodal learning, often employing transformer architectures or state-space models like Mamba. This attention mechanism is proving crucial for enhancing performance in tasks requiring the integration of diverse data sources, leading to improvements in areas such as scene change detection, style transfer, and multimodal emotion recognition. The resulting advancements have significant implications for various fields, including computer vision, natural language processing, and healthcare.

Papers

June 23, 2023

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition
Xinda Li
Emotion Recognition Cross Attention K TOKEN Multimodal Emotion Recognition Physiological Signal Cross Attention Module

June 8, 2023

Grounded Text-to-Image Synthesis with Attention Refocusing
Quynh Phung, Songwei Ge, Jia-Bin Huang
Cross Attention Text to Image Synthesis Attention Map Selective Focus Large Scale Diffusion Model

June 4, 2023

Detector Guidance for Multi-Object Text-to-Image Generation
Luping Liu, Zijian Zhang, Yi Ren, Rongjie Huang, Xiang Yin, Zhou Zhao
Text to Image Generation Cross Attention Cross Attention Map Based Mix Cross Attention Block

June 1, 2023

Conditioning Diffusion Models via Attributes and Semantic Masks for Face Generation
Nico Giambi, Giuseppe Lisanti
Diffusion Model GAN Model Cross Attention Face Generation Semantic Mask Rich Attribute Face Manipulation

May 31, 2023

May 30, 2023

AMatFormer: Efficient Feature Matching via Anchor Matching Transformer
Bo Jiang, Shuxian Luo, Xiao Wang, Chuanfu Li, Jin Tang
Cross Attention Feature Matching Anchor Graph Consensus Representation Matching Framework

May 26, 2023

Disambiguated Attention Embedding for Multi-Instance Partial-Label Learning
Wei Tang, Weijia Zhang, Min-Ling Zhang
Cross Attention Instance Learning Partial Label Learning Instance Level Label

May 24, 2023

Audio-Visual Dataset and Method for Anomaly Detection in Traffic Videos
Błażej Leporowski, Arian Bakhtiarnia, Nicole Bonnici, Adrian Muscat, Luca Zanella, Yiming Wang, Alexandros Iosifidis
Anomaly Detection Practical Method Audio Visual Cross Attention Video Sequence Traffic Video Real World Scene

May 23, 2023

May 21, 2023

HIINT: Historical, Intra- and Inter- personal Dynamics Modeling with Cross-person Memory Transformer
Yubin Kim, Dong Won Lee, Paul Pu Liang, Sharifa Algohwinem, Cynthia Breazeal, Hae Won Park
Cross Attention Cross Modal Attention Historical Text

May 17, 2023

BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions
Jie Zhang, Qing-Tian Xu, Qiu-Shi Zhu, Zhen-Hua Ling
Cross Attention Single Channel Speech Enhancement Auditory Attention Neural Speech Enhancement Time Domain Speech Enhancement Network Time Domain Audio Separation Network Multi Talker Environment

May 11, 2023

Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers
Firas Khader, Jakob Nikolas Kather, Tianyu Han, Sven Nebelung, Christiane Kuhl, Johannes Stegmaier, Daniel Truhn
Transformer Megatron Decepticons Transformer Architecture Cross Attention Whole Slide Image Data Efficient Whole Slide Imaging

April 27, 2023

Optimization-Inspired Cross-Attention Transformer for Compressive Sensing
Jiechong Song, Chong Mou, Shiqi Wang, Siwei Ma, Jian Zhang
Cross Attention Compressed Sensing Cross Attention Transformer Dual Cross Attention

April 12, 2023

Neural Field Conditioning Strategies for 2D Semantic Segmentation
Martin Gromniak, Sven Magg, Stefan Wermter
Semantic Segmentation Cross Attention Neural Field 2 Dimensional Segmentation Convolutional Decoder

April 7, 2023

Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis
Qiucheng Wu, Yujian Liu, Handong Zhao, Trung Bui, Zhe Lin, Yang Zhang, Shiyu Chang
Diffusion Model Text to Image Cross Attention Text to Image Synthesis Temporal Attention Spatial Attention

April 6, 2023

Hierarchical Graph Neural Network with Cross-Attention for Cross-Device User Matching
Ali Taghibakhshi, Mingyuan Ma, Ashwath Aithal, Onur Yilmaz, Haggai Maron, Matthew West
Graph Neural Network Cross Attention Higher Order Network Hierarchical Graph Cross Device

March 30, 2023

Dual Cross-Attention for Medical Image Segmentation
Gorkem Can Ates, Prasoon Mohan, Emrah Celik
Medical Image Segmentation Multi Scale Cross Attention Dual Cross Attention Cross Channel Attention

March 23, 2023

Patch-Mix Transformer for Unsupervised Domain Adaptation: A Game Perspective
Jinjing Zhu, Haotian Bai, Lin Wang
Vision Transformer Domain Adaptation Cross Attention Domain Alignment Patch Transformer Multiplayer Game Mixup Loss

Cross Attention

Papers

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

Grounded Text-to-Image Synthesis with Attention Refocusing

Detector Guidance for Multi-Object Text-to-Image Generation

Conditioning Diffusion Models via Attributes and Semantic Masks for Face Generation

Monotonic Location Attention for Length Generalization

Attention-Based Methods For Audio Question Answering

AMatFormer: Efficient Feature Matching via Anchor Matching Transformer

Disambiguated Attention Embedding for Multi-Instance Partial-Label Learning

Audio-Visual Dataset and Method for Anomaly Detection in Traffic Videos

A multimodal method based on cross-attention and convolution for postoperative infection diagnosis

Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition

HIINT: Historical, Intra- and Inter- personal Dynamics Modeling with Cross-person Memory Transformer

BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions

Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers

Optimization-Inspired Cross-Attention Transformer for Compressive Sensing

Neural Field Conditioning Strategies for 2D Semantic Segmentation

Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis

Hierarchical Graph Neural Network with Cross-Attention for Cross-Device User Matching

Dual Cross-Attention for Medical Image Segmentation

Patch-Mix Transformer for Unsupervised Domain Adaptation: A Game Perspective