Multimodal Instruction

Multimodal instruction focuses on enabling artificial intelligence systems to understand and respond to instructions encompassing multiple modalities, such as text, images, audio, and even 3D data. Current research emphasizes developing models that can effectively align these different modalities, often employing techniques like multimodal encoders, large language models (LLMs), and parameter-efficient fine-tuning methods such as LoRA. This field is significant because it paves the way for more natural and versatile human-computer interaction, with applications ranging from robotic control and augmented reality to improved accessibility for diverse user populations.

Papers

January 19, 2024

MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning
Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua, Xuan, Zhengxin Li, Lin Ma, Shenghua Gao
Multimodal Large Language Model Multi Modal Multimodal Input Multimodal Instruction Tool Learning Multi Modal Instruction

December 28, 2023

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi
Human Language Vision Paper Audio Driven Action Feature Multimodal Instruction Encoder Decoder Transformer Model Large Scale Multimodal

December 17, 2023

M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts
Mingsheng Li, Xin Chen, Chi Zhang, Sijin Chen, Hongyuan Zhu, Fukun Yin, Gang Yu, Tao Chen
Large Model Instruction Following Multimodal Instruction 3D Understanding Multimodal Prompt

November 30, 2023

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal
Multimodal Large Language Model Different Context Multimodal Generation Multimodal Instruction Interleaving Method Modality Data Interleaved Multimodal

November 29, 2023

Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels?
Xiujun Li, Yujie Lu, Zhe Gan, Jianfeng Gao, William Yang Wang, Yejin Choi
Text Modality Multimodal Large Language Model Multimodal Model Human Instruction Tetromino Pixel Multimodal Instruction Interactive Instruction

November 3, 2023

PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion
Yiduo Guo, Zekai Zhang, Yaobo Liang, Dongyan Zhao, Nan Duan
Long Document Multimodal Instruction Task Completion

October 18, 2023

MISAR: A Multimodal Instructional System with Augmented Reality
Jing Bi, Nguyen Manh Nguyen, Ali Vosoughi, Chenliang Xu
Augmented Reality Multimodal Context Multimodal Instruction Human Performance

October 4, 2023

On the Performance of Multimodal Language Models
Utsav Garg, Erhan Bas
System Performance Multi Modal Multimodal Task Multimodal Language Model Multimodal Instruction Zero Shot Generalization

October 1, 2023

Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants
Tianyu Yu, Jinyi Hu, Yuan Yao, Haoye Zhang, Yue Zhao, Chongyi Wang, Shan Wang, Yinxv Pan, Jiao Xue, Dahai Li, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun
Data Set Multimodal Large Language Model Multi Modal Pre Trained Vision Language Model Vision Language Task Multimodal Instruction

September 27, 2023

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
Multimodal LLM Multimodal Instruction Augmented Language Model

September 14, 2023

TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild
Huayang Li, Siheng Li, Deng Cai, Longyue Wang, Lemao Liu, Taro Watanabe, Yujiu Yang, Shuming Shi
Wild Challenge Multimodal Phenomenon Instruction Following Larger Language Model Multimodal Dialogue Multimodal Instruction

August 30, 2023

LLaSM: Large Language and Speech Model
Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
Language Model Vision Language Model Multi Modal Large Language Model Large Language Speech Model Multimodal Instruction

August 8, 2023

Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions
Juncheng Li, Kaihang Pan, Zhiqi Ge, Minghe Gao, Wei Ji, Wenqiao Zhang, Tat-Seng Chua, Siliang Tang, Hanwang Zhang, Yueting Zhuang
Zero Shot Fine Tuning Multimodal LLM Visual Prompt Caption Generation Multimodal Instruction

July 3, 2023

SCITUNE: Aligning Large Language Models with Scientific Multimodal Instructions
Sameera Horawalavithana, Sai Munikoti, Ian Stewart, Henry Kvinge
Large Language Model Large Multimodal Model Multimodal Instruction Instruction Finetuning

May 25, 2023

ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst
Zijia Zhao, Longteng Guo, Tongtian Yue, Sihan Chen, Shuai Shao, Xinxin Zhu, Zehuan Yuan, Jing Liu
Large Language Model Zero Shot Different Modality Multimodal Input Multimodal Task Multimodal Instruction

May 18, 2023

Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model
Siyuan Huang, Zhengkai Jiang, Hao Dong, Yu Qiao, Peng Gao, Hongsheng Li
Large Language Model Manipulation Task Robotic Task Robot Action Multimodal Instruction Multi Modal Instruction

April 28, 2023

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, Yu Qiao
Instruction Following Multimodal Instruction LLaMA 3

December 21, 2022

MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning
Zhiyang Xu, Ying Shen, Lifu Huang
Zero Shot Instruction Tuning Multimodal Task Instruction Dataset Multimodal Instruction