Cross Modal Fusion

Cross-modal fusion aims to integrate information from different data modalities (e.g., images, text, audio) to create richer, more robust representations for various tasks. Current research emphasizes developing efficient and effective fusion strategies, often employing transformer-based architectures and attention mechanisms to capture complex inter-modal relationships, as well as exploring different fusion points (early, mid, late) depending on the task and data characteristics. This field is significant because improved cross-modal understanding has broad applications, enhancing performance in areas such as image segmentation, video understanding, recommendation systems, and emotion recognition.

Papers

November 22, 2023

FuseNet: Self-Supervised Dual-Path Network for Medical Image Segmentation
Amirhossein Kazerouni, Sanaz Karimijafarbigloo, Reza Azad, Yury Velichko, Ulas Bagci, Dorit Merhof
Semantic Segmentation Self Supervised Medical Image Segmentation Lung Segmentation Cross Modal Fusion Segmentation Map Dual Path

November 14, 2023

Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video Parsing
Yating Xu, Conghui Hu, Gim Hee Lee
Cross Attention Multimodal Context Cross Modal Fusion Audio Visual Video Parsing

September 23, 2023

Robust Navigation with Cross-Modal Fusion and Knowledge Transfer
Wenzhe Cai, Guangran Cheng, Lingyue Kong, Lu Dong, Changyin Sun
Strong Generalization Knowledge Transfer Cross Modal Fusion Robust Navigation Navigation Skill Teacher Student Distillation

August 31, 2023

Distraction-free Embeddings for Robust VQA
Atharvan Dogra, Deeksha Varshney, Ashwin Kalyan, Ameet Deshpande, Neeraj Kumar
Video Question Answering Cross Modal Representation Vision Language Understanding Cross Modal Fusion

August 22, 2023

GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-training
Xinchi Deng, Han Shi, Runhui Huang, Changlin Li, Hang Xu, Jianhua Han, James Kwok, Shen Zhao, Wei Zhang, Xiaodan Liang
Pre Trained Model Cross Modal Contrastive Language Image Data Driven Model Cross Modal Fusion

August 14, 2023

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder
Yusheng Dai, Hang Chen, Jun Du, Xiaofei Ding, Ning Ding, Feijun Jiang, Chin-Hui Lee
Cross Modal Speech Recognition System Audio Visual Speech Recognition Cross Modal Fusion

July 25, 2023

Spectrum-guided Multi-granularity Referring Video Object Segmentation
Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian
Cross Modal Fusion Referring Video Object Segmentation R Vos

July 19, 2023

Multi-Grained Multimodal Interaction Network for Entity Linking
Pengfei Luo, Tong Xu, Shiwei Wu, Chen Zhu, Linli Xu, Enhong Chen
Entity Linking Cross Modal Fusion Multimodal Knowledge Graph

June 16, 2023

A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition
Yuntao Shou, Huan Liu, Xiangyong Cao, Deyu Meng, Bo Dong
Modal Feature Cross Modal Fusion Low Rank Attention Conversational Emotion Recognition

May 13, 2023

Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training
Ke Zhang, Yan Yang, Jun Yu, Hanliang Jiang, Jianping Fan, Qingming Huang, Weidong Han
Multi Task Cross Modal Alignment Multi Modal Representation Cross Modal Fusion Erase Based Masking Alignment Model Medical Vision Joint Image Text

May 8, 2023

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment
Ruiqi Li, Rongjie Huang, Lichao Zhang, Jinglin Liu, Zhou Zhao
Voice Conversion Cross Modal Alignment Automated Conversion Cross Modal Fusion Rhythmic Pattern

February 5, 2023

cross-modal fusion techniques for utterance-level emotion recognition from text and speech
Jiachen Luo, Huy Phan, Joshua Reiss
Text Modality Speech Analysis Multimodal Representation Multimodal Emotion Recognition Multimodal Feature Emotion Detection Cross Modal Fusion

January 26, 2023

October 26, 2022

RGB-T Semantic Segmentation with Location, Activation, and Sharpening
Gongyang Li, Yike Wang, Zhi Liu, Xinpeng Zhang, Dan Zeng
Semantic Segmentation Scene Understanding Targeted Activation Penalty Cross Modal Feature Cross Modal Fusion Location Information

September 20, 2022

An Efficient End-to-End Transformer with Progressive Tri-modal Attention for Multi-modal Emotion Recognition
Yang Wu, Pai Peng, Zhenyu Zhang, Yanyan Zhao, Bing Qin
End to End Multimodal Attention End to End Model Cross Modal Fusion

August 14, 2022

MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting
Pengyu Chen, Junyu Gao, Yuan Yuan, Qi Wang
Feature Fusion Crowd Counting Cross Modal Fusion

April 12, 2022

March 9, 2022

CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers
Jiaming Zhang, Huayao Liu, Kailun Yang, Xinxin Hu, Ruiping Liu, Rainer Stiefelhagen
Semantic Segmentation Transformer Megatron Decepticons Multi Modal Fusion Cross Modal Fusion Modality Fusion LiDAR Datasets Code Mixing Event Based Semantic Segmentation