Fusion Module

Fusion modules are crucial components in multimodal learning, aiming to effectively combine information from different data sources (e.g., images, text, audio, depth maps) to improve the performance of various tasks. Current research focuses on developing sophisticated fusion strategies within transformer architectures, often incorporating attention mechanisms and employing techniques like knowledge distillation or contrastive learning to enhance feature representation and reduce computational costs. These advancements are significantly impacting fields like visual place recognition, medical image analysis, and robotic perception by enabling more robust and accurate models for complex real-world applications.

Papers

May 11, 2023

EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification
Souhail Bakkali, Ziheng Ming, Mickael Coustaty, Marçal Rusiñol
Information Retrieval Diverse Ensemble Mutual Learning Fusion Module Document Image Classification

April 13, 2023

Efficient Multimodal Fusion via Interactive Prompting
Yaowei Li, Ruijie Quan, Linchao Zhu, Yi Yang
Multimodal Learning Multimodal Fusion Fusion Module Interactive Prompting Pre Trained Unimodal

March 20, 2023

IMF: Interactive Multimodal Fusion Model for Link Prediction
Xinhang Li, Xiangyu Zhao, Jiaxing Xu, Yong Zhang, Chunxiao Xing
Cross Modal Link Prediction Multimodal Information Multimodal Fusion Fusion Module Modality Aware

March 8, 2023

Robust Multimodal Fusion for Human Activity Recognition
Sanju Xaviar, Xin Yang, Omid Ardakanian
Activity Recognition Multimodal Fusion Multi Modal Fusion Fusion Module Multimodal Fusion Model Robust Fusion

January 8, 2023

RGB-T Multi-Modal Crowd Counting Based on Transformer
Zhengyi Liu, Wei Wu, Yacheng Tan, Guanghui Zhang
Transformer Based Multimodal Information Crowd Counting Multi Modal Fusion Fusion Module Supervised Counting

November 26, 2022

Panoramic Video Salient Object Detection with Ambisonic Audio Guidance
Xiang Li, Haoyuan Cao, Shijie Zhao, Junlin Li, Li Zhang, Bhiksha Raj
Fusion Module Panoramic Video Order Ambisonics Video Salient Object Detection

September 12, 2022

Multimodal Graph Learning for Deepfake Detection
Zhiyuan Yan, Peng Sun, Yubo Lang, Shuo Du, Shanzhuo Zhang, Wei Wang, Lei Liu
Graph Learning Deepfake Detection Deepfake Detector Deepfake Video Fusion Module

September 6, 2022

Finger Multimodal Feature Fusion and Recognition Based on Channel Spatial Attention
Jian Guo, Jiaxiang Tu, Hengyi Ren, Chong Han, Lijuan Sun
Recognition Rate Channel Attention Modal Feature Fusion Module Recognition Performance Multimodal Biometric

July 27, 2022

Camouflaged Object Detection via Context-aware Cross-level Fusion
Geng Chen, Si-Jie Liu, Yu-Jia Sun, Ge-Peng Ji, Ya-Feng Wu, Tao Zhou
Camouflaged Object Detection Fusion Module Context Aware Cross Level Fusion

December 9, 2021

Edge-aware Guidance Fusion Network for RGB Thermal Scene Parsing
Wujie Zhou, Shaohua Dong, Caie Xu, Yaguan Qian
Feature Fusion Cross Modal Fusion Fusion Module RGB Thermal Edge Map Guidance Network