Multimodal Pre

Multimodal pre-training focuses on developing artificial intelligence models that can effectively learn from and integrate information across multiple data modalities, such as text, images, and audio. Current research emphasizes improving the efficiency and robustness of these models, often employing transformer-based architectures and exploring techniques like contrastive learning and parameter-efficient fine-tuning to enhance performance on downstream tasks. This field is significant because it enables the creation of more powerful and versatile AI systems capable of handling complex real-world problems, with applications ranging from medical image analysis and robotic control to improved language understanding and document processing.

Papers

April 3, 2024

ALOHa: A New Measure for Hallucination in Captioning Models
Suzanne Petryk, David M. Chan, Anish Kachinthaya, Haodi Zou, John Canny, Joseph E. Gonzalez, Trevor Darrell
Content Hallucination Multimodal Pre New Measure Object Hallucination

March 30, 2024

Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training
Tongkun Su, Jun Li, Xi Zhang, Haibo Jin, Hao Chen, Qiong Wang, Faqin Lv, Baoliang Zhao, Yin Hu
Product Design Visual Question Answering Pre Training Multimodal Phenomenon Visual Question Multimodal Pre Modality Alignment

March 14, 2024

Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks
Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens
Pre Trained Model Vision Language Parameter Efficient Fine Tuning Multimodal Pre Major Challenge Bottleneck Low Rank Bottleneck Expert Choice Routing

February 28, 2024

February 27, 2024

Acquiring Linguistic Knowledge from Multimodal Input
Theodor Amariucai, Alex Warstadt
Language Model Vision Language Multimodal Input Multimodal Pre Multi Modal Training Linguistic Knowledge

February 11, 2024

TransGPT: Multi-modal Generative Pre-trained Transformer for Transportation
Peng Wang, Xiang Wei, Fangxu Hu, Wenjuan Han
Multi Modal Data Multimodal Pre Transportation System

February 9, 2024

Revealing Multimodal Contrastive Representation Learning through Latent Partial Causal Models
Yuhang Liu, Zhen Zhang, Dong Gong, Biwei Huang, Mingming Gong, Anton van den Hengel, Kun Zhang, Javen Qinfeng Shi
Multimodal Data Causal Model Contrastive Representation Learning Multimodal Pre Latent Causal Multi Modal Contrastive Representation

February 6, 2024

Partially Recentralization Softmax Loss for Vision-Language Models Robustness
Hao Wang, Jinzhe Jiang, Xin Zhang, Chen Li
Adversarial Attack Vision Language Model Adversarial Robustness Natural Language Processing Task Multimodal Pre MUltimodal RObustness

December 11, 2023

Multimodal Pretraining of Medical Time Series and Notes
Ryan King, Tianbao Yang, Bobak Mortazavi
Self Supervised Learning Self Supervised Pretraining Short Note Multimodal Pre Intensive Care Unit Medical Time Series Hospital Mortality Prediction

October 23, 2023

The BLA Benchmark: Investigating Basic Language Abilities of Pre-Trained Multimodal Models
Xinyi Chen, Raquel Fernández, Sandro Pezzelle
Transformer Based Multimodal Model Multimodal Pre Visual in Context Learning Word Alignment

October 19, 2023

RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering
Yuduo Wang, Pedram Ghamisi
Transformer Model Multimodal Model Multimodal Transformer Multimodal Pre Modality Fusion Remote Sensing Visual Question Answering

September 12, 2023

Frequency-Aware Masked Autoencoders for Multimodal Pretraining on Biosignals
Ran Liu, Ellen L. Zippi, Hadi Pouransari, Chris Sandino, Jingping Nie, Hanlin Goh, Erdrin Azemi, Ali Moin
Supervised Autoencoder Multimodal Pre Low Frequency Diverse Biosignals Frequency Aware Transformer Masked Autoencoder Modality Dropout

August 29, 2023

CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation
Devaansh Gupta, Siddhant Kharbanda, Jiawei Zhou, Wanhua Li, Hanspeter Pfister, Donglai Wei
Pre Trained Model Multimodal Pre Multimodal Machine Translation Visual Knowledge Multilingual Pre Trained Model Multimodal CLIP Multilingual Multimodal

August 18, 2023

Long-range Multimodal Pretraining for Movie Understanding
Dawit Mureja Argaw, Joon-Young Lee, Markus Woodson, In So Kweon, Fabian Caba Heilbron
Cross Modal Video Understanding Multimodal Model Multimodal Pre Movie Understanding

August 10, 2023

Multimodal Pretrained Models for Verifiable Sequential Decision-Making: Planning, Grounding, and Perception
Yunhao Yang, Cyrus Neary, Ufuk Topcu
Task Planning Perception Aware Multimodal Pre Grounding Network Task Specific Knowledge Sequential Decision Making Task Control Logic

May 25, 2023

MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation
Gwantae Kim, Seonghyeok Noh, Insung Ham, Hanseok Ko
Multimodal Pre Co Speech Gesture Generation

May 23, 2023

May 20, 2023

Brain encoding models based on multimodal transformers can transfer across language and vision
Jerry Tang, Meng Du, Vy A. Vo, Vasudev Lal, Alexander G. Huth
Human Language Vision Paper Multimodal Transformer Multimodal Pre Concept Representation Multimodal Processing Brain Encoding

Multimodal Pre

Papers

ALOHa: A New Measure for Hallucination in Captioning Models

Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training

Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks

Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding

DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning

Acquiring Linguistic Knowledge from Multimodal Input

TransGPT: Multi-modal Generative Pre-trained Transformer for Transportation

Revealing Multimodal Contrastive Representation Learning through Latent Partial Causal Models

Partially Recentralization Softmax Loss for Vision-Language Models Robustness

Multimodal Pretraining of Medical Time Series and Notes

The BLA Benchmark: Investigating Basic Language Abilities of Pre-Trained Multimodal Models

RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering

Frequency-Aware Masked Autoencoders for Multimodal Pretraining on Biosignals

CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation

Long-range Multimodal Pretraining for Movie Understanding

Multimodal Pretrained Models for Verifiable Sequential Decision-Making: Planning, Grounding, and Perception

MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation

Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining

Perception Test: A Diagnostic Benchmark for Multimodal Video Models

Brain encoding models based on multimodal transformers can transfer across language and vision