Multi Modal Transformer

Multi-modal transformers are deep learning models designed to integrate and process information from multiple data sources (e.g., images, text, audio) simultaneously, aiming to improve the accuracy and robustness of various tasks compared to single-modality approaches. Current research focuses on developing efficient architectures, such as encoder-decoder transformers and modality-specific fusion strategies, to handle diverse data types and address challenges like data heterogeneity and missing modalities. These models are proving valuable across numerous fields, including medical image analysis, speech recognition, and autonomous driving, by enabling more comprehensive and accurate analyses than previously possible.

Papers

July 14, 2023

TriFormer: A Multi-modal Transformer Framework For Mild Cognitive Impairment Conversion Prediction
Linfeng Liu, Junyan Lyu, Siyu Liu, Xiaoying Tang, Shekhar S. Chandra, Fatima A. Nasrallah
Multi Modal Transformer Cognitive Impairment Clinical Transformer

July 3, 2023

End-To-End Prediction of Knee Osteoarthritis Progression With Multi-Modal Transformers
Egor Panfilov, Simo Saarakkala, Miika T. Nieminen, Aleksei Tiulpin
Multi Modal Transformer Knee Osteoarthritis Knee Magnetic Resonance

June 28, 2023

Reconstructing the Hemodynamic Response Function via a Bimodal Transformer
Yoni Choukroun, Lior Golgher, Pablo Blinder, Lior Wolf
Neural Activity Multi Modal Transformer Neural Population Hemodynamic Analysis Blood Flow

June 2, 2023

May 31, 2023

A Multi-Modal Transformer Network for Action Detection
Matthew Korban, Scott T. Acton, Peter Youngs
Action Detection Multimodal Attention Multi Modal Transformer Motion Feature Motion Modality Optical Flow Field

May 8, 2023

Joint Moment Retrieval and Highlight Detection Via Natural Language Queries
Richard Luo, Austin Peng, Heidi Yap, Koby Beard
Vision Transformer Video Summarization Multi Modal Transformer Highlight Detection

April 19, 2023

Learning Robust Visual-Semantic Embedding for Generalizable Person Re-identification
Suncheng Xiang, Jingsheng Gao, Mengyuan Guan, Jiacheng Ruan, Chengfeng Zhou, Ting Liu, Dahong Qian, Yuzhuo Fu
Visual Semantic Multi Modal Transformer Generalizable Person Re Identification Masked Multimodal

March 25, 2023

3Mformer: Multi-order Multi-mode Transformer for Skeletal Action Recognition
Lei Wang, Piotr Koniusz
Multi Modal Transformer Skeletal Action Recognition

March 23, 2023

FER-former: Multi-modal Transformer for Facial Expression Recognition
Yande Li, Mingjie Wang, Minglun Gong, Yonggang Lu, Li Liu
Receptive Field Facial Expression Recognition Multi Modal Transformer Domain Supervision

March 13, 2023

Predicting Density of States via Multi-modal Transformer
Namkyeong Lee, Heewoong Noh, Sungwon Kim, Dongmin Hyun, Gyoung S. Na, Chanyoung Park
Particle Density Multi Modal Transformer Crystal Structure State Specific Decision Making Phonon Density of State

February 21, 2023

MVMTnet: A Multi-variate Multi-modal Transformer for Multi-class Classification of Cardiac Irregularities Using ECG Waveforms and Clinical Notes
Ankur Samanta, Mark Karlov, Meghna Ravikumar, Christian McIntosh Clarke, Jayakumar Rajadas, Kaveh Hassani
Deep Learning Multi Class Classification Multi Modal Transformer Patient Monitoring

February 16, 2023

Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection
Hao Chen, Feihong Shen
Cross Modal Attention Multi Modal Transformer RGB D Salient Object Detection Hierarchical Multi Modal Transformer

January 13, 2023

It's Just a Matter of Time: Detecting Depression with Time-Enriched Multimodal Transformers
Ana-Maria Bucur, Adrian Cosma, Paolo Rosso, Liviu P. Dinu
Time Matter Multimodal Dataset Multimodal Transformer Depression Detection Depression Symptom Artefact PARTICLE Multi Modal Transformer Reddit Dataset

November 15, 2022

YORO -- Lightweight End to End Visual Grounding
Chih-Hui Ho, Srikar Appalaraju, Bhavan Jasani, R. Manmatha, Nuno Vasconcelos
Visual Grounding Lightweight High Transformer Encoder Multi Modal Transformer Alignment Loss

November 9, 2022

Masked Vision-Language Transformers for Scene Text Recognition
Jie Wu, Ying Peng, Shengming Zhang, Weigang Qi, Jian Zhang
Vision Transformer Scene Text Recognition Multi Modal Transformer Language Transformer Vision Language Transformer

October 26, 2022

TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction
Nada Osman, Guglielmo Camporese, Lamberto Ballan
Intent Prediction Multi Modal Transformer Attention Mask Mask Transformer

October 10, 2022

Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing
Tim Siebert, Kai Norman Clasen, Mahdyar Ravanbakhsh, Begüm Demir
Remote Sensing Visual Question Modality Specific Fusion Transformer Multi Modal Transformer VQA System Remote Sensing Visual Question Answering

October 1, 2022

Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease Classification with Incomplete Data
Linfeng Liu, Siyu Liu, Lu Zhang, Xuan Vinh To, Fatima Nasrallah, Shekhar S. Chandra
Alzheimer'S Disease Multi Modal Data Disease Classification Multi Modal Transformer Incomplete Data Modality Aware Transformer Modality Dropout

September 30, 2022

Husformer: A Multi-Modal Transformer for Multi-Modal Human State Recognition
Ruiqi Wang, Wonse Jo, Dezhong Zhao, Weizheng Wang, Baijian Yang, Guohua Chen, Byung-Cheol Min
Multi Modal Fusion Multi Modal Transformer Cross Modal Transformer