Multimodal Model

Multimodal models integrate information from multiple sources like text, images, audio, and video to achieve a more comprehensive understanding than unimodal approaches. Current research focuses on improving model interpretability, addressing biases, enhancing robustness against adversarial attacks and missing data, and developing efficient architectures like transformers and state-space models for various tasks including image captioning, question answering, and sentiment analysis. These advancements are significant for applications ranging from healthcare and robotics to more general-purpose AI systems, driving progress in both fundamental understanding and practical deployment of AI.

Papers

April 29, 2024

Stylus: Automatic Adapter Selection for Diffusion Models
Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
Diffusion Model Multimodal Model Adapter Learning Task Specific Adapter

April 25, 2024

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Botian Shi, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
Multimodal Large Language Model GPT 4 Multimodal Model Vision Foundation Model Multimodal Understanding Software Suite Bilingual Data

April 22, 2024

SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation
Yuying Ge, Sijie Zhao, Jinguo Zhu, Yixiao Ge, Kun Yi, Lin Song, Chen Li, Xiaohan Ding, Ying Shan
Faithful Generation Multimodal Model Multimodal Foundation Model Vision Language Understanding Fine Grained Image

April 18, 2024

April 17, 2024

Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent
Wei Chen, Zhiyuan Li
Multimodal Model AI Agent Technical Report K TOKEN Multimodal Agent Device AI Octopus V2

April 12, 2024

FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning
Duy Phuong Nguyen, J. Pablo Munoz, Ali Jannesari
Vision Language Model Federated Learning Multimodal Model Contrastive Language Image Visual Language Model Training Model Fast LoRA

April 11, 2024

Connecting NeRFs, Images, and Text
Francesco Ballerini, Pierluigi Zama Ramirez, Roberto Mirabella, Samuele Salti, Luigi Di Stefano
Neural Radiance Field Text Modality Multimodal Model Multimodal Representation NeRF Representation

April 4, 2024

April 2, 2024

March 28, 2024

Concept-based Analysis of Neural Networks via Vision-Language Models
Ravi Mangal, Nina Narodytska, Divya Gopinath, Boyue Caroline Hu, Anirban Roy, Susmit Jha, Corina Pasareanu
Neural Network Vision Language Model Vision Language Multimodal Model Vision Model Based Deep Learning Conceptual Analysis

March 27, 2024

Envisioning MedCLIP: A Deep Dive into Explainability for Medical Vision-Language Models
Anees Ur Rehman Hashmi, Dwarikanath Mahapatra, Mohammad Yaqub
Deep Learning Model Vision Language Model High Explainability Multimodal Model Explainable Artificial Intelligence Method Deep Dive

March 26, 2024

March 18, 2024

X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment
Dongjae Shin, Hyeonseok Lim, Inho Won, Changsu Choi, Minjun Kim, Seungwoo Song, Hangyeol Yoo, Sangmin Kim, Kyungtae Lim
Large Language Model Large Multimodal Model Multimodal Model Multilingual LLM Bilingual Multimodal

March 14, 2024

March 8, 2024

Embracing Large Language and Multimodal Models for Prosthetic Technologies
Sharmita Dey, Arndt F. Schilling
Multimodal Model Large Language Multimodal Input Assistive Technology Active Prosthesis

Multimodal Model

Papers

Stylus: Automatic Adapter Selection for Diffusion Models

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation

Sequential Compositional Generalization in Multimodal Models

From Image to Video, what do we need in multimodal LLMs?

Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent

FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning

Connecting NeRFs, Images, and Text

No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

Analyzing heterogeneity in Alzheimer Disease using multimodal normative modeling on imaging-based ATN biomarkers

Attribution Regularization for Multimodal Paradigms

Unleash the Potential of CLIP for Video Highlight Detection

Concept-based Analysis of Neural Networks via Vision-Language Models

Envisioning MedCLIP: A Deep Dive into Explainability for Medical Vision-Language Models

Evaluating the Efficacy of Prompt-Engineered Large Multimodal Models Versus Fine-Tuned Vision Transformers in Image-Based Security Applications

Solution for Emotion Prediction Competition of Workshop on Emotionally and Culturally Intelligent AI

X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

Embracing Large Language and Multimodal Models for Prosthetic Technologies