Multimodal Transformer

Multimodal transformers are deep learning models designed to process and integrate information from multiple data sources (modalities), such as images, text, audio, and sensor data, to achieve superior performance compared to unimodal approaches. Current research focuses on improving the efficiency and robustness of these models, particularly addressing challenges like missing modalities, sparse data alignment, and computational cost, often employing architectures like masked multimodal transformers and modality-aware attention mechanisms. This field is significant because multimodal transformers are proving highly effective across diverse applications, including sentiment analysis, medical image segmentation, robotic control, and financial forecasting, offering improved accuracy and more nuanced understanding of complex phenomena.

Papers

February 8, 2024

Text Role Classification in Scientific Charts Using Multimodal Transformers
Hye Jin Kim, Nicolas Lell, Ansgar Scherp
Multimodal Transformer Text Classification Task Document Layout Analysis Chart Related Scientific Chart

January 29, 2024

Beyond Image-Text Matching: Verb Understanding in Multimodal Transformers Using Guided Masking
Ivana Beňová, Jana Košecká, Michal Gregor, Martin Tamajka, Marcel Veselý, Marián Šimko
Multimodal Model Multimodal Transformer Image Text Matching Early Slavic Participle Feature Masking

January 8, 2024

November 30, 2023

November 16, 2023

Improving Unimodal Inference with Multimodal Transformers
Kateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj
Multimodal Transformer Unimodal Model Multi Modal Training Large Scale Multimodal

November 2, 2023

Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model
Jaeyong Kang, Soujanya Poria, Dorien Herremans
Gameplay Video Multimodal Dataset Music Generation Multimodal Transformer Music Generation Model Music Retrieval

October 23, 2023

3M-TRANSFORMER: A Multi-Stage Multi-Stream Multimodal Transformer for Embodied Turn-Taking Prediction
Mehdi Fatan, Emanuele Mincato, Dimitra Pintzou, Mariella Dimiccoli
Transformer Based Multi View Multimodal Transformer Egocentric Data Ego4D Dataset Turn Taking Prediction

October 22, 2023

MMTF-DES: A Fusion of Multimodal Transformer Models for Desire, Emotion, and Sentiment Analysis of Social Media Data
Abdul Aziz, Nihad Karim Chowdhury, Muhammad Ashad Kabir, Abu Nowshed Chy, Md. Jawad Siddique
Sentiment Analysis Emotion Recognition Underlying Emotion Multimodal Transformer Social Medium Data Human Desire

October 21, 2023

Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images
Bissmella Bahaduri, Zuheng Ming, Fangchen Feng, Anissa Mokraou
Remote Sensing Image Multimodal Transformer Multi Modal Fusion Fusion Module Cross Channel Attention

October 19, 2023

RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering
Yuduo Wang, Pedram Ghamisi
Transformer Model Multimodal Model Multimodal Transformer Multimodal Pre Modality Fusion Remote Sensing Visual Question Answering

October 9, 2023

Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis
Haoyu Zhang, Yu Wang, Guanghao Yin, Kejun Liu, Yuanyuan Liu, Tianshu Yu
LeArning Abstract Multimodal Transformer Multimodal Sentiment Analysis Multimodal Sentiment Representation Editing

October 2, 2023

Modality-aware Transformer for Financial Time series Forecasting
Hajar Emami, Xuan-Hong Dang, Yousaf Shah, Petros Zerfos
Time Series Forecasting Multimodal Transformer Financial Time Series Data Modality Modality Aware Transformer

September 28, 2023

PROSE: Predicting Operators and Symbolic Expressions using Multimodal Transformers
Yuxuan Liu, Zecheng Zhang, Hayden Schaeffer
Dynamical System Differential Equation Multimodal Transformer Feature Operator Operator Prediction

September 21, 2023

Multimodal Transformers for Wireless Communications: A Case Study in Beam Prediction
Yu Tian, Qiyang Zhao, Zine el abidine Kherroubi, Fouzi Boukhalfa, Kebin Wu, Faouzi Bader
Convolutional Neural Network Case Study Multimodal Transformer Beam Prediction Radar Signal Processing

September 7, 2023

MMSFormer: Multimodal Transformer for Material and Semantic Segmentation
Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif
Semantic Segmentation Multimodal Transformer Material Response Multi Modal Transformer Multimodal Chart Input Modality Multimodal Segmentation

August 28, 2023

UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery Localization
Rui Zhang, Hongxia Wang, Mingshan Du, Hanqing Liu, Yang Zhou, Qiang Zeng
Temporal Attention Multimodal Transformer Pyramid Attention Forgery Localization Video Inpainting Localization

August 27, 2023

MM-AU:Towards Multimodal Understanding of Advertisement Videos
Digbalay Bose, Rajat Hebbar, Tiantian Feng, Krishna Somandepalli, Anfeng Xu, Shrikanth Narayanan
Zero Shot Multimodal Transformer Multimodal Understanding Topic Classification Multilingual Multimodal Benchmark

August 23, 2023

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE
Junyi Chen, Longteng Guo, Jia Sun, Shuai Shao, Zehuan Yuan, Liang Lin, Dongyu Zhang
Vision Language Multimodal Transformer Vision Language Foundation Model Masked Prediction Vision Language Downstream Task

Multimodal Transformer

Papers

Text Role Classification in Scientific Charts Using Multimodal Transformers

Beyond Image-Text Matching: Verb Understanding in Multimodal Transformers Using Guided Masking

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification

InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation

Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large Vision-Language Models

Improving Unimodal Inference with Multimodal Transformers

Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model

3M-TRANSFORMER: A Multi-Stage Multi-Stream Multimodal Transformer for Embodied Turn-Taking Prediction

MMTF-DES: A Fusion of Multimodal Transformer Models for Desire, Emotion, and Sentiment Analysis of Social Media Data

Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images

RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering

Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

Modality-aware Transformer for Financial Time series Forecasting

PROSE: Predicting Operators and Symbolic Expressions using Multimodal Transformers

Multimodal Transformers for Wireless Communications: A Case Study in Beam Prediction

MMSFormer: Multimodal Transformer for Material and Semantic Segmentation

UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery Localization

MM-AU:Towards Multimodal Understanding of Advertisement Videos

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE