Cross Modal Attention

Cross-modal attention focuses on integrating information from multiple data sources (e.g., images, audio, text) to improve the performance of machine learning models. Current research emphasizes developing sophisticated attention mechanisms within transformer-based architectures to effectively fuse these heterogeneous modalities, often incorporating techniques like co-guidance attention, hierarchical attention, and contrastive learning to enhance feature representation and alignment. This approach is proving highly effective across diverse applications, including medical image analysis, audio-visual event localization, and deepfake detection, leading to improved accuracy and interpretability in these fields. The ability to effectively combine information from different modalities holds significant promise for advancing various scientific and technological domains.

Papers

September 18, 2023

Discovering Sounding Objects by Audio Queries for Audio Visual Segmentation
Shaofei Huang, Han Li, Yuqing Wang, Hongji Zhu, Jiao Dai, Jizhong Han, Wenge Rong, Si Liu
Cross Modal Attention Audio Recording Temporal Interaction Audio Visual Segmentation Query Transformer

August 20, 2023

Generic Attention-model Explainability by Weighted Relevance Accumulation
Yiming Huang, Aozhe Jia, Xiaodan Zhang, Jiawei Zhang
Attention Layer Attention Based Cross Modal Attention CLIP Model Attention Based Transformer

August 17, 2023

Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection
Runmin Cong, Hongyu Liu, Chen Zhang, Wei Zhang, Feng Zheng, Ran Song, Sam Kwong
Convolutional Neural Network SALient Object Detection Cross Modal Attention Refinement Network RGB D Salient Object Detection Depth Modality RGB Modality

August 11, 2023

ViGT: Proposal-free Video Grounding with Learnable Token in Transformer
Kun Li, Dan Guo, Meng Wang
Transformer Based Cross Modal Attention Cross Modal Feature Query Attention Video Grounding Learnable Token

July 11, 2023

July 3, 2023

Cross-modality Attention Adapter: A Glioma Segmentation Fine-tuning Method for SAM Using Multimodal Brain MR Images
Xiaoyu Shi, Shurong Chai, Yinhao Li, Jingliang Cheng, Jie Bai, Guohua Zhao, Yen-Wei Chen
Cross Modal Attention 3D Brain Elev Vision Sam Glioma Segmentation Glioblastoma Multiforme

May 24, 2023

Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation
Chang Liu, Henghui Ding, Yulun Zhang, Xudong Jiang
Attention Mechanism Multimodal Information Cross Modal Attention Referring Image Segmentation Mask Decoder Iterative Interaction

May 21, 2023

HIINT: Historical, Intra- and Inter- personal Dynamics Modeling with Cross-person Memory Transformer
Yubin Kim, Dong Won Lee, Paul Pu Liang, Sharifa Algohwinem, Cynthia Breazeal, Hae Won Park
Cross Attention Cross Modal Attention Historical Text

May 18, 2023

Emergent Communication with Attention
Ryokan Ri, Ryo Ueda, Jason Naradowsky
Human Attention Cross Modal Attention Artificial Agent Emergent Communication Emergent Language

May 4, 2023

April 14, 2023

HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion Recognition
Soumya Dutta, Sriram Ganapathy
Emotion Recognition Cross Modal Attention Hierarchical Cross Attention

March 16, 2023

Emotional Reaction Intensity Estimation Based on Multimodal Data
Shangfei Wang, Jiaqiang Wu, Feiyi Zheng, Xin Li, Xuewei Li, Suwen Wang, Yi Wu, Yanan Chang, Xiangyu Miao
Multimodal Data Cross Modal Attention Multimodal Feature Emotion Intensity Behavior Analysis in the Wild Emotional Reaction Intensity

February 28, 2023

RGB-D Grasp Detection via Depth Guided Learning with Cross-modal Attention
Ran Qin, Haoxiang Ma, Boyang Gao, Di Huang
Cross Modal Attention Grasp Detection Object Grasping Grasp Performance Learning Depth

February 27, 2023

TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection
Linhao Zhang, Li Jin, Xian Sun, Guangluan Xu, Zequn Zhang, Xiaoyu Li, Nayu Liu, Qing Liu, Shiyao Yan
Optimal Transport Hate Speech Multimodal Phenomenon Cross Modal Alignment Cross Modal Attention Modality Gap

February 16, 2023

Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection
Hao Chen, Feihong Shen
Cross Modal Attention Multi Modal Transformer RGB D Salient Object Detection Hierarchical Multi Modal Transformer

February 14, 2023

Heterogeneous Anomaly Detection for Software Systems via Semi-supervised Cross-modal Attention
Cheryl Lee, Tianyi Yang, Zhuangbin Chen, Yuxin Su, Yongqiang Yang, Michael R. Lyu
Semi Supervised Heterogeneous Data Cross Modal Attention Software System Log Message Anomalous Event

January 11, 2023

Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments
Ting Wang, Zongkai Wu, Feiyu Yao, Donglin Wang
Graph Drawing Vision and Language Navigation Cross Modal Attention Continuous Environment Environment Representation New Environment

December 20, 2022

Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment
Rohan Pandey, Rulin Shao, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency
Cross Modal Attention Vision Language Alignment Multimodal Vision Language Model Relation Alignment

Cross Modal Attention

Papers

Discovering Sounding Objects by Audio Queries for Audio Visual Segmentation

Generic Attention-model Explainability by Weighted Relevance Accumulation

Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection

ViGT: Proposal-free Video Grounding with Learnable Token in Transformer

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

One-Versus-Others Attention: Scalable Multimodal Integration for Biomedical Data

Cross-modality Attention Adapter: A Glioma Segmentation Fine-tuning Method for SAM Using Multimodal Brain MR Images

Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation

HIINT: Historical, Intra- and Inter- personal Dynamics Modeling with Cross-person Memory Transformer

Emergent Communication with Attention

SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention for Emotion Recognition in Conversation

Learning Missing Modal Electronic Health Records with Unified Multi-modal Data Embedding and Modality-Aware Attention

HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion Recognition

Emotional Reaction Intensity Estimation Based on Multimodal Data

RGB-D Grasp Detection via Depth Guided Learning with Cross-modal Attention

TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection

Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection

Heterogeneous Anomaly Detection for Software Systems via Semi-supervised Cross-modal Attention

Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments

Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment