Multimodal Pre

Multimodal pre-training focuses on developing artificial intelligence models that can effectively learn from and integrate information across multiple data modalities, such as text, images, and audio. Current research emphasizes improving the efficiency and robustness of these models, often employing transformer-based architectures and exploring techniques like contrastive learning and parameter-efficient fine-tuning to enhance performance on downstream tasks. This field is significant because it enables the creation of more powerful and versatile AI systems capable of handling complex real-world problems, with applications ranging from medical image analysis and robotic control to improved language understanding and document processing.

Papers

May 19, 2023

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner
Zikang Liu, Sihan Chen, Longteng Guo, Handong Li, Xingjian He, Jing Liu
Vision Language Visual Question Answering Yes No Question Multimodal Pre Dense Caption

May 14, 2023

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
Le Xue, Ning Yu, Shu Zhang, Artemis Panagopoulou, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese
Multi Modal Large Multimodal Model Multimodal Pre 3D Understanding Multi Modal Pre Training Multi Modal 3D

May 13, 2023

How to Train Your CheXDragon: Training Chest X-Ray Models for Transfer to Novel Tasks and Healthcare Systems
Cara Van Uden, Jeremy Irvin, Mars Huang, Nathan Dean, Jason Carr, Andrew Ng, Curtis Langlotz
Self Supervised Medical Image Chest X Ray Formality Transfer Healthcare System Multimodal Dataset Multimodal Pre Novel Task

April 26, 2023

Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining
Bingqian Lin, Zicong Chen, Mingjie Li, Haokun Lin, Hang Xu, Yi Zhu, Jianzhuang Liu, Wenjia Cai, Lei Yang, Shen Zhao, Chenfei Wu, Ling Chen, Xiaojun Chang, Yi Yang, Lei Xing, Xiaodan Liang
Task Specific Model Multimodal Pre Medical Data Clinical Task General Purpose Medical

March 24, 2023

Best of Both Worlds: Multimodal Contrastive Learning with Tabular and Imaging Data
Paul Hager, Martin J. Menten, Daniel Rueckert
Contrastive Learning World Event Table Semantics Self Supervised Contrastive Learning Supervised Contrastive Learning Multimodal Pre Manual Morphometry Imaging Data

February 16, 2023

Generalization algorithm of multimodal pre-training model based on graph-text self-supervised training
Zhangxiaobing, Tangzhenhao, Longzi, Fuxianghua
Neural Machine Translation Multimodal Pre Self Supervised Training Multimodal Machine Translation

February 11, 2023

Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face Anti-Spoofing
Zitong Yu, Rizhao Cai, Yawen Cui, Xin Liu, Yongjian Hu, Alex Kot
Vision Transformer Face Anti Spoofing Masked AutoEncoder Multimodal Pre Multimodal Learning Method

November 6, 2022

A Sequence Agnostic Multimodal Preprocessing for Clogged Blood Vessel Detection in Alzheimer's Diagnosis
Partho Ghosh, Md. Abrar Istiak, Mir Sayeed Mohammad, Swapnil Saha, Uday Kamal
Machine Learning Alzheimer'S Disease Medical Diagnosis Multimodal Pre Image Modality Vessel Design

November 3, 2022

Scaling Multimodal Pre-Training via Cross-Modality Gradient Harmonization
Junru Wu, Yi Liang, Feng Han, Hassan Akbari, Zhangyang Wang, Cong Yu
Multimodal Pre Cross Modality Alignment Gradient Harmonization

October 26, 2022

FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning
Suvir Mirchandani, Licheng Yu, Mengjiao Wang, Animesh Sinha, Wenwen Jiang, Tao Xiang, Ning Zhang
Cross Modal Retrieval Generated Caption Multimodal Pre Fashion Image Retrieval Iterative Retrieval

October 24, 2022

Instruction-Following Agents with Multimodal Transformer
Hao Liu, Lisa Lee, Kimin Lee, Pieter Abbeel
Agent Smith Visual Representation Instruction Following Multimodal Transformer Multimodal Pre Transformer Based Policy

October 12, 2022

Foundation Transformers
Hongyu Wang, Shuming Ma, Shaohan Huang, Li Dong, Wenhui Wang, Zhiliang Peng, Yu Wu, Payal Bajaj, Saksham Singhal, Alon Benhaim, Barun Patra, Zhun Liu, Vishrav Chaudhary, Xia Song, Furu Wei
Vision Transformer Multimodal Pre Transformer Variant Foundation Transformer

September 15, 2022

Knowledge Graph Completion with Pre-trained Multimodal Transformer and Twins Negative Sampling
Yichi Zhang, Wen Zhang
Knowledge Graph Knowledge Graph Completion Negative Sampling Multimodal Pre Multimodal Knowledge Graph

September 14, 2022

Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering
Jingjing Jiang, Ziyi Liu, Nanning Zheng
Multimodal Learning Information Bottleneck Robust Representation Multimodal Input Multimodal Pre

August 22, 2022

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks
Wenhui Wang, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, Furu Wei
Vision Paper Vision Language Task Cross Modal Retrieval Modality Specific Multimodal Pre Multimodal Foundation Model Different Language

August 4, 2022

Prompt Tuning for Generative Multimodal Pretrained Models
Hao Yang, Junyang Lin, An Yang, Peng Wang, Chang Zhou, Hongxia Yang
Prompt Tuning Multimodal Pre Parameter Tuning

May 24, 2022

Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization
Aishwarya Agrawal, Ivana Kajić, Emanuele Bugliarello, Elnaz Davoodi, Anita Gergely, Phil Blunsom, Aida Nematzadeh
Case Study Vision Language Visual Question Answering Distribution Generalization Multimodal Pre Evaluation Practice

May 3, 2022

i-Code: An Integrative and Composable Multimodal Learning Framework
Ziyi Yang, Yuwei Fang, Chenguang Zhu, Reid Pryzant, Dongdong Chen, Yu Shi, Yichong Xu, Yao Qian, Mei Gao, Yi-Ling Chen, Liyang Lu, Yujia Xie, Robert Gmyr, Noel Codella, Naoyuki Kanda, Bin Xiao, Lu Yuan, Takuya Yoshioka, Michael Zeng, Xuedong Huang
Multimodal Learning Multi Modal Data Modality Specific Cross Modality Multimodal Pre Jim Code Modality Model

April 18, 2022

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei
Multimodal Pre Unified View Mask Guided Multimodal Representation Learning Document Intelligence Document AI

April 10, 2022

Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource Parallel Data
Yu Kang, Tianqiao Liu, Hang Li, Yang Hao, Wenbiao Ding
Cross Modal Multimodal Pre Audio Text Parallel Data Audio Language

Multimodal Pre

Papers

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

How to Train Your CheXDragon: Training Chest X-Ray Models for Transfer to Novel Tasks and Healthcare Systems

Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining

Best of Both Worlds: Multimodal Contrastive Learning with Tabular and Imaging Data

Generalization algorithm of multimodal pre-training model based on graph-text self-supervised training

Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face Anti-Spoofing

A Sequence Agnostic Multimodal Preprocessing for Clogged Blood Vessel Detection in Alzheimer's Diagnosis

Scaling Multimodal Pre-Training via Cross-Modality Gradient Harmonization

FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning

Instruction-Following Agents with Multimodal Transformer

Foundation Transformers

Knowledge Graph Completion with Pre-trained Multimodal Transformer and Twins Negative Sampling

Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

Prompt Tuning for Generative Multimodal Pretrained Models

Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization

i-Code: An Integrative and Composable Multimodal Learning Framework

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource Parallel Data