Multimodal in Context Learning

Multimodal in-context learning (M-ICL) explores how large multimodal models (LMMs) can learn new tasks from a few examples without retraining, leveraging diverse data modalities like text and images. Current research focuses on understanding the mechanisms of M-ICL, improving its efficiency through techniques like multimodal task vectors and context-aware modules, and developing better datasets and evaluation benchmarks for diverse tasks. This field is significant because it promises more efficient and adaptable AI systems, with applications ranging from medical image analysis and scene text recognition to multimodal question answering and video narration.

Papers

October 1, 2023

Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning
Mustafa Shukor, Alexandre Rame, Corentin Dancette, Matthieu Cord
Context Learning Large Multimodal Model Task Performance Multimodal in Context Learning

September 14, 2023

MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning
Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang
Vision Language Model Vision Language Task Multimodal in Context Learning

September 9, 2023

MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering over Text, Tables and Images
Weihao Liu, Fangyu Lei, Tongxu Luo, Jiahe Lei, Shizhu He, Jun Zhao, Kang Liu
Large Language Model Context Learning Text Modality Efficient Hybrid Table Semantics Multimodal in Context Learning MultimodalQA Dataset

August 30, 2023

Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection
Yifan Xu, Mengdan Zhang, Xiaoshan Yang, Changsheng Xu
Multi Modal Open Vocabulary Object Detection Cross Modal Knowledge Distillation Multimodal in Context Learning

November 28, 2022

Pitfalls of Conditional Batch Normalization for Contextual Multi-Modal Learning
Ivaxi Sheth, Aamer Abdul Rahman, Mohammad Havaei, Samira Ebrahimi Kahou
Convolutional Neural Network Strong Generalization Natural Image Batch Normalization Common Pitfall Multimodal in Context Learning Deep Learning Task

Multimodal in Context Learning

Papers

Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning

MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning

MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering over Text, Tables and Images

Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection

Pitfalls of Conditional Batch Normalization for Contextual Multi-Modal Learning