Cross Modal Attention

Cross-modal attention focuses on integrating information from multiple data sources (e.g., images, audio, text) to improve the performance of machine learning models. Current research emphasizes developing sophisticated attention mechanisms within transformer-based architectures to effectively fuse these heterogeneous modalities, often incorporating techniques like co-guidance attention, hierarchical attention, and contrastive learning to enhance feature representation and alignment. This approach is proving highly effective across diverse applications, including medical image analysis, audio-visual event localization, and deepfake detection, leading to improved accuracy and interpretability in these fields. The ability to effectively combine information from different modalities holds significant promise for advancing various scientific and technological domains.

Papers

May 6, 2024

Hierarchical Space-Time Attention for Micro-Expression Recognition
Haihong Hao, Shuo Wang, Huixia Ben, Yanbin Hao, Yansong Wang, Weiwei Wang
Cross Modal Attention Micro Expression Micro Expression Recognition Spatiotemporal Attention Space Time Attention

April 27, 2024

Instance-free Text to Point Cloud Localization with Relative Position Awareness
Lichao Wang, Zhihao Yuan, Jinke Ren, Shuguang Cui, Zhen Li
Point Cloud Self Attention Cross Modal Attention Unstructured Text Precise Localization Cross Modal Localization Position Awareness

April 2, 2024

DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning
Mengfei Du, Binhao Wu, Jiwen Zhang, Zhihao Fan, Zejun Li, Ruipu Luo, Xuanjing Huang, Zhongyu Wei
Vision and Language Navigation Cross Modal Attention Cross Modal Fusion Cross Modal Contrastive Learning Dual Level Alignment

March 29, 2024

FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues
Shuang Li, Jiahua Wang, Lijie Wen
Vision Language Cross Modal Attention Content Based Feature Multi Modal Alignment Multi Modal Reasoning Feature Swapping Joint Speech Visual Clue

March 27, 2024

H2ASeg: Hierarchical Adaptive Interaction and Weighting Network for Tumor Segmentation in PET/CT Images
Jinpeng Lu, Jingyun Chen, Linghan Cai, Songhan Jiang, Yongbing Zhang
Tumor Segmentation CT Image Cross Modal Attention Modality Specific Modality Fusion Q Seg Cross Modal Correlation Hierarchical Interaction

March 20, 2024

Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition
R. Gnana Praveen, Jahangir Alam
Multimodal Fusion Cross Modal Attention Multimodal Emotion Recognition Joint Modeling Dimensional Emotion Recognition Valence Arousal

March 4, 2024

Robust Wake Word Spotting With Frame-Level Cross-Modal Attention Based Audio-Visual Conformer
Haoxu Wang, Ming Cheng, Qiang Fu, Ming Li
Cross Modal Attention Wake Word Cross Modal Correlation

February 24, 2024

Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics
Sadaf Ghaffari, Nikhil Krishnaswamy
Vision Language Model Multimodal LLM Cross Modal Attention Multimodal Reasoning Physical Reasoning Situated Reasoning Physical Dynamic Failure Explanation

January 31, 2024

Multimodal Neurodegenerative Disease Subtyping Explained by ChatGPT
Diego Machado Reyes, Hanqing Chao, Juergen Hahn, Li Shen, Pingkun Yan
ChatGPT Generated Conversation Cross Modal Cross Modal Attention Single Modality Multimodal Framework

January 26, 2024

AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations
Naresh Kumar Devulapally, Sidharth Anand, Sreyasee Das Bhattacharjee, Junsong Yuan, Yu-Ping Chang
Emotion Recognition Cross Modal Attention Multimodal Attention Emotion Prediction Group Conversation

December 28, 2023

Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer Approach
Weide Liu, Huijing Zhan, Hao Chen, Fengmao Lv
Knowledge Transfer Cross Modal Attention Multimodal Sentiment Analysis Missing Modality Sentiment Prediction Multimodal Supervision

December 6, 2023

GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models
Haicheng Liao, Huanming Shen, Zhenning Li, Chengyue Wang, Guofa Li, Yiming Bie, Chengzhong Xu
Autonomous Driving Autonomous Vehicle GPT 4 Visual Grounding Cross Modal Attention Visual Context Object Grounding

November 30, 2023

Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain Adaptation
Linzi Xing, Quan Tran, Fabian Caba, Franck Dernoncourt, Seunghyun Yoon, Zhaowen Wang, Trung Bui, Giuseppe Carenini
Cross Modal Attention Video Understanding Task Contrastive Domain Adaptation

November 29, 2023

Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation
Minhyeok Lee, Dogyoon Lee, Jungho Lee, Suhwan Cho, Heeseung Choi, Ig-Jae Kim, Sangyoun Lee
Human Language Cross Modal Attention Referring Image Segmentation Bidirectional Correspondence Video Synchronization

November 25, 2023

Parkinson's Disease Classification Using Contrastive Graph Cross-View Learning with Multimodal Fusion of SPECT Images and Clinical Features
Jun-En Ding, Chien-Chin Hsu, Feng Liu
Multimodal Fusion Parkinson Disease Cross Modal Attention Disease Classification Parkinson'S Disease Contrastive Graph Multimodal Graph

November 3, 2023

PILL: Plug Into LLM with Adapter Expert and Attention Gate
Fangyuan Zhang, Tingting Liang, Zhengyuan Wu, Yuyu Yin
Vision Language Model Medical LLM Cross Modal Attention Modality Fusion Pill Prescription

October 17, 2023

MST-GAT: A Multimodal Spatial-Temporal Graph Attention Network for Time Series Anomaly Detection
Chaoyue Ding, Shiliang Sun, Jing Zhao
Time Series Graph Attention Cross Modal Attention Temporal Correlation

September 28, 2023

Audio-Visual Speaker Verification via Joint Cross-Attention
R. Gnana Praveen, Jahangir Alam
Speaker Verification Audio Visual Cross Modal Attention Audio Visual Fusion Audio Modality Joint Cross Attention

September 26, 2023

A multi-modal approach for identifying schizophrenia using cross-modal attention
Gowtham Premananth, Yashish M. Siriwardena, Philip Resnik, Carol Espy-Wilson
Text Modality Cross Modal Attention Schizophrenia Diagnosis Multimodal System Multi Modal Approach Multimodal Depression

September 22, 2023

Cross-Modal Translation and Alignment for Survival Analysis
Fengtao Zhou, Hao Chen
Alignment Problem Cross Modal Attention Cross Modal Representation Modal Translation Cross Modal Correlation

Cross Modal Attention

Papers

Hierarchical Space-Time Attention for Micro-Expression Recognition

Instance-free Text to Point Cloud Localization with Relative Position Awareness

DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning

FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues

H2ASeg: Hierarchical Adaptive Interaction and Weighting Network for Tumor Segmentation in PET/CT Images

Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition

Robust Wake Word Spotting With Frame-Level Cross-Modal Attention Based Audio-Visual Conformer

Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics

Multimodal Neurodegenerative Disease Subtyping Explained by ChatGPT

AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations

Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer Approach

GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models

Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain Adaptation

Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation

Parkinson's Disease Classification Using Contrastive Graph Cross-View Learning with Multimodal Fusion of SPECT Images and Clinical Features

PILL: Plug Into LLM with Adapter Expert and Attention Gate

MST-GAT: A Multimodal Spatial-Temporal Graph Attention Network for Time Series Anomaly Detection

Audio-Visual Speaker Verification via Joint Cross-Attention

A multi-modal approach for identifying schizophrenia using cross-modal attention

Cross-Modal Translation and Alignment for Survival Analysis