Multimodal Model

Multimodal models integrate information from multiple sources like text, images, audio, and video to achieve a more comprehensive understanding than unimodal approaches. Current research focuses on improving model interpretability, addressing biases, enhancing robustness against adversarial attacks and missing data, and developing efficient architectures like transformers and state-space models for various tasks including image captioning, question answering, and sentiment analysis. These advancements are significant for applications ranging from healthcare and robotics to more general-purpose AI systems, driving progress in both fundamental understanding and practical deployment of AI.

Papers

January 16, 2023

Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models
Zhiqiu Lin, Samuel Yu, Zhiyi Kuang, Deepak Pathak, Deva Ramanan
LeArning Abstract Shot Learning Cross Modal Multimodal Model Unimodal Model Shot Example Cross Modal Information Modal Adaptation

December 1, 2022

Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models
Zhuowan Li, Cihang Xie, Benjamin Van Durme, Alan Yuille
Vision Language Localization Focus Visual Representation Multimodal Model Semantics Surfaced Unimodal Model Based Model Visual Learning Vision and Language Model

November 23, 2022

RoentGen: Vision-Language Foundation Model for Chest X-ray Generation
Pierre Chambon, Christian Bluethgen, Jean-Benoit Delbrouck, Rogier Van der Sluijs, Małgorzata Połacin, Juan Manuel Zambrano Chaves, Tanishq Mathew Abraham, Shivanshu Purohit, Curtis P. Langlotz, Akshay Chaudhari
Multimodal Model Chest X Ray Medical Image Datasets X Ray Vision Language Foundation Model Medical Image Data Generative Image Model Synthetic Chest X Ray

November 22, 2022

Retrieval-Augmented Multimodal Language Modeling
Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih
Multimodal Model Retrieval Augmented Language Model Image to Text Generation

November 1, 2022

Training Vision-Language Models with Less Bimodal Supervision
Elad Segal, Ben Bogin, Jonathan Berant
Vision Language Model Multimodal Data Multimodal Model Multimodal Supervision

October 22, 2022

A Visual Tour Of Current Challenges In Multimodal Language Models
Shashank Sonkar, Naiming Liu, Richard G. Baraniuk
Text to Image Generation Multimodal Model Multimodal Learning Multimodal Language Model Better Representation Visual Exploration Current Challenge

October 21, 2022

Multimodal Model with Text and Drug Embeddings for Adverse Drug Reaction Classification
Andrey Sakhovskiy, Elena Tutubalina
Text Modality Multimodal Model Molecular Property Prediction BERT Based Molecular Descriptor Drug Representation Adverse Drug Drug Embeddings

October 18, 2022

Using Language to Extend to Unseen Domains
Lisa Dunlap, Clara Mohri, Devin Guillory, Han Zhang, Trevor Darrell, Joseph E. Gonzalez, Aditi Raghunathan, Anja Rohrbach
Domain Adaptation Training Data Human Language Multimodal Model Unseen Domain Image Embeddings Training Domain

October 12, 2022

October 11, 2022

Transfer Learning with Joint Fine-Tuning for Multimodal Sentiment Analysis
Guilherme Lourenço de Toledo, Ricardo Marcondes Marcacini
Transfer Learning Sentiment Analysis Multimodal Model Multimodal Sentiment Analysis Pre Trained Unimodal

September 30, 2022

Data Poisoning Attacks Against Multimodal Encoders
Ziqing Yang, Xinlei He, Zheng Li, Michael Backes, Mathias Humbert, Pascal Berrang, Yang Zhang
Text Modality Multimodal Model Different Modality Data Poisoning Attack Visual Modality Multimodal Encoder

July 26, 2022

Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models
Robin Rombach, Andreas Blattmann, Björn Ommer
Diffusion Model Image Synthesis Multimodal Model Text Driven Synthesis

July 24, 2022

Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment Analysis
Teng Sun, Wenjie Wang, Liqiang Jing, Yiran Cui, Xuemeng Song, Liqiang Nie
Text Modality Multimodal Model Counterfactual Reasoning Multimodal Sentiment Analysis Sentiment Feature Multimodal Sentiment Multimodal Semantic

June 30, 2022

MultiViz: Towards Visualizing and Understanding Multimodal Models
Paul Pu Liang, Yiwei Lyu, Gunjan Chhablani, Nihal Jain, Zihao Deng, Xingbo Wang, Louis-Philippe Morency, Ruslan Salakhutdinov
Multimodal Model Multimodal Representation Cross Modal Interaction Multimodal Interaction

June 25, 2022

Defending Multimodal Fusion Models against Single-Source Adversaries
Karren Yang, Wan-Yi Lin, Manash Barman, Filipe Condessa, Zico Kolter
Multimodal Model Multi Step Adversarial Attack Multimodal Fusion Model Multimodal Neural Network

May 30, 2022

Analyzing Modality Robustness in Multimodal Sentiment Analysis
Devamanyu Hazarika, Yingting Li, Bo Cheng, Shuai Zhao, Roger Zimmermann, Soujanya Poria
Multimodal Model Multimodal Sentiment Analysis Robust Multimodal Modality Robustness