Cross Attention

Cross-attention is a mechanism that allows neural networks to relate information from different parts of an input, such as relating words in a sentence to pixels in an image, or aligning audio and video streams. Current research focuses on improving the efficiency and effectiveness of cross-attention in various applications, including image generation, video processing, and multimodal learning, often employing transformer architectures or state-space models like Mamba. This attention mechanism is proving crucial for enhancing performance in tasks requiring the integration of diverse data sources, leading to improvements in areas such as scene change detection, style transfer, and multimodal emotion recognition. The resulting advancements have significant implications for various fields, including computer vision, natural language processing, and healthcare.

Papers

June 9, 2024

SAM-PM: Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention
Muhammad Nawfal Meeran, Gokul Adethya T, Bhanu Pratyush Mantha
Segment Anything Model Image Segmentation Cross Attention Segmentation Network Temporal Attention Camouflaged Object Detection

June 6, 2024

Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis
Marianna Ohanyan, Hayk Manukyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
Cross Attention Text to Image Synthesis Cross Attention Mechanism Object Mask

May 28, 2024

AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization
Junjie Shentu, Matthew Watson, Noura Al Moubayed
Text to Image Cross Attention Disentanglement Capability Cross Attention Map Subject Driven Generation Concept Disentanglement

May 27, 2024

RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance
Jiaojiao Fan, Haotian Xue, Qinsheng Zhang, Yongxin Chen
Self Attention Video Generation Cross Attention Video Diffusion Model H$ Consistency Feature Guidance

May 26, 2024

Graph neural networks with configuration cross-attention for tensor compilers
Dmitrii Khizbullin, Eduardo Rocha de Andrade, Thanh Hau Nguyen, Matheus Pedroza Ferreira, David R. Pugh
Neural Network Graph Drawing Cross Attention Inference Workload Tensor Compiler Neural Graph

May 21, 2024

May 2, 2024

CrossMPT: Cross-attention Message-Passing Transformer for Error Correcting Codes
Seong-Joon Park, Hee-Youl Kwak, Sang-Hyo Kim, Yongjune Kim, Jong-Seon No
Transformer Based Cross Attention Transformer Decoder Complex ECC Core Cross Attention Block Error Correcting Code Neural Network Decoder

April 27, 2024

Efficient Bi-manipulation using RGBD Multi-model Fusion based on Attention Mechanism
Jian Shen, Jiaxin Huang, Zhigong Song
Attention Mechanism Cross Attention VAE Model RGB D Action RGB D Fusion Mixed Attention Bi Manual

April 21, 2024

Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control
Maria Mihaela Trusca, Wolf Nuyts, Jonathan Thomm, Robert Honig, Thomas Hofmann, Tinne Tuytelaars, Marie-Francine Moens
Global Evaluation External Control Text to Image Generation Cross Attention Image Text Alignment Edge Transformer Multimodal CLIP Attention Heatmaps

April 16, 2024

Referring Flexible Image Restoration
Runwei Guan, Rongsheng Hu, Zhuhao Zhou, Tianlang Xue, Ka Lok Man, Jeremy Smith, Eng Gee Lim, Weiping Ding, Yutao Yue
Multi Agent Image Restoration Cross Attention Degraded Image

April 8, 2024

Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models
Saman Motamed, Wouter Van Gansbeke, Luc Van Gool
Zero Shot Cross Attention Video Diffusion Model Text to Video Diffusion Model Cross Attention Guidance

April 3, 2024

Faster Diffusion via Temporal Attention Decomposition
Haozhe Liu, Wentian Zhang, Jinheng Xie, Francesco Faccio, Mengmeng Xu, Tao Xiang, Mike Zheng Shou, Juan-Manuel Perez-Rua, Jürgen Schmidhuber
Diffusion Model Text to Image Diffusion Model Scientific Inference Cross Attention

April 1, 2024

SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining
Chull Hwan Song, Taebaek Hwang, Jooyoung Yoon, Shunghyun Choi, Yeong Hyeon Gu
Vision Language Model Cross Attention Fashion Datasets Attention Masking Cross Modal Understanding

March 29, 2024

An Interpretable Cross-Attentive Multi-modal MRI Fusion Framework for Schizophrenia Diagnosis
Ziyu Zhou, Anton Orlichenko, Gang Qu, Zening Fu, Vince D Calhoun, Zhengming Ding, Yu-Ping Wang
Cross Attention Functional Magnetic Resonance Imaging Multi Modal Fusion Brain MRI Cross Attention Module Schizophrenia Diagnosis

March 28, 2024

Cross-Attention is Not Always Needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion Recognition
R. Gnana Praveen, Jahangir Alam
Emotion Recognition Cross Attention Cross Attention Mechanism Dimensional Emotion Recognition

March 26, 2024

March 24, 2024

Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement
Xiuquan Hou, Meiqin Liu, Senlin Zhang, Ping Wei, Badong Chen
Self Attention Cross Attention

March 20, 2024

ReGround: Improving Textual and Spatial Grounding at No Cost
Yuseung Lee, Minhyuk Sung
Text Modality Self Attention Cross Attention Hidden CoST Image Diffusion Model Object Grounding Text Grounding

Cross Attention

Papers

SAM-PM: Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention

Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis

AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization

RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance

Graph neural networks with configuration cross-attention for tensor compilers

Inconsistency-Aware Cross-Attention for Audio-Visual Fusion in Dimensional Emotion Recognition

DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control

CrossMPT: Cross-attention Message-Passing Transformer for Error Correcting Codes

Efficient Bi-manipulation using RGBD Multi-model Fusion based on Attention Mechanism

Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control

Referring Flexible Image Restoration

Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models

Faster Diffusion via Temporal Attention Decomposition

SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining

An Interpretable Cross-Attentive Multi-modal MRI Fusion Framework for Schizophrenia Diagnosis

Cross-Attention is Not Always Needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion Recognition

Efficient Video Object Segmentation via Modulated Cross-Attention Memory

Invisible Gas Detection: An RGB-Thermal Cross Attention Network and A New Benchmark

Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement

ReGround: Improving Textual and Spatial Grounding at No Cost