Multi Modal Transformer

Multi-modal transformers are deep learning models designed to integrate and process information from multiple data sources (e.g., images, text, audio) simultaneously, aiming to improve the accuracy and robustness of various tasks compared to single-modality approaches. Current research focuses on developing efficient architectures, such as encoder-decoder transformers and modality-specific fusion strategies, to handle diverse data types and address challenges like data heterogeneity and missing modalities. These models are proving valuable across numerous fields, including medical image analysis, speech recognition, and autonomous driving, by enabling more comprehensive and accurate analyses than previously possible.

Papers

September 28, 2022

Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding
Fengyuan Shi, Ruopeng Gao, Weilin Huang, Limin Wang
Visual Grounding Multimodal Transformer Multi Modal Transformer

August 15, 2022

Multi-modal Transformer Path Prediction for Autonomous Vehicle
Chia Hong Tseng, Jie Zhang, Min-Te Sun, Kazuya Sakai, Wei-Shinn Ku
Autonomous Vehicle Multi Modal Transformer Vehicle Trajectory Prediction Path Prediction

June 21, 2022

Transformer-Based Multi-modal Proposal and Re-Rank for Wikipedia Image-Caption Matching
Nicola Messina, Davide Alessandro Coccomini, Andrea Esuli, Fabrizio Falchi
Multi Modal Transformer Relevance Score Kaggle Competition Ranking Step

April 19, 2022

Multimodal Token Fusion for Vision Transformers
Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, Yunhe Wang
Vision Transformer Multi Modal Transformer Token Fusion Single Modal Transformer Based Vision

April 18, 2022

Visio-Linguistic Brain Encoding
Subba Reddy Oota, Jashn Arora, Vijay Rowtula, Manish Gupta, Raju S. Bapi
Multi Modal Transformer Brain Encoding

March 23, 2022

UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection
Ye Liu, Siyuan Li, Yang Wu, Chang Wen Chen, Ying Shan, Xiaohu Qie
Unified Alignment Multi Modal Transformer Video Moment Retrieval Moment Retrieval Highlight Detection

February 15, 2022

Delving Deeper into Cross-lingual Visual Question Answering
Chen Liu, Jonas Pfeiffer, Anna Korhonen, Ivan Vulić, Iryna Gurevych
Visual Question Answering 3d Vqa Multi Modal Transformer Deep Depth Ok Vqa

November 22, 2021

Class-agnostic Object Detection with Multi-modal Transformer
Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan, Rao Muhammad Anwer, Ming-Hsuan Yang
Vision Transformer Computer Vision Multi Modal Transformer Deformable Attention Class Agnostic Object Open World Object Detection Vision Language Fusion