Multimodal Comprehension

Multimodal comprehension focuses on enabling artificial intelligence systems to understand and reason using information from multiple sources, such as text and images or video and audio. Current research emphasizes improving the accuracy and robustness of large vision-language models (LVLMs) by addressing issues like hallucinations (generating inaccurate information) and improving their ability to handle long, complex multimodal inputs, often through novel training-free methods or by enhancing attention mechanisms. This field is significant because it underpins advancements in various applications, including medical image analysis, educational tools, and more generally, creating more human-like AI capable of understanding rich, real-world information.

Papers

October 13, 2023

MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks
Xiaocui Yang, Wenfang Wu, Shi Feng, Ming Wang, Daling Wang, Yang Li, Qi Sun, Yifei Zhang, Xiaoming Fu, Soujanya Poria
Multimodal Large Language Model Multimodal Model Multimodal Reasoning Multimodal Comprehension Improved BIGbench V2

October 2, 2023

Making LLaMA SEE and Draw with SEED Tokenizer
Yuying Ge, Sijie Zhao, Ziyun Zeng, Yixiao Ge, Chen Li, Xintao Wang, Ying Shan
Multimodal Generation Multimodal Comprehension Emergent Ability Purple LLaMA CyberSecEval Artistic Drawing

September 20, 2023

DreamLLM: Synergistic Multimodal Comprehension and Creation
Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, Xiangwen Kong, Xiangyu Zhang, Kaisheng Ma, Li Yi
Zero Shot Multimodal Large Language Model Generative Modeling Visual Creation Multimodal Comprehension

July 3, 2023

JourneyDB: A Benchmark for Generative Image Understanding
Keqiang Sun, Junting Pan, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, Jifeng Dai, Yu Qiao, Limin Wang, Hongsheng Li
Vision Language Model New Benchmark Image Understanding Multimodal Comprehension Generative Image Generative Comprehension

June 25, 2023

Chain-of-Thought Prompt Distillation for Multimodal Named Entity Recognition and Multimodal Relation Extraction
Feng Chen, Yujian Feng
Large Language Model Multimodal Comprehension Multimodal Named Entity Recognition Prompt Distillation

May 27, 2023

MPCHAT: Towards Multimodal Persona-Grounded Conversation
Jaewoo Ahn, Yeda Song, Sangdoo Yun, Gunhee Kim
Multimodal Phenomenon Potential Conversation Outcome Persona Based Dialogue Multimodal Comprehension PERSONA CHAT Dataset Personality Perception

February 10, 2023

Alloprof: a new French question-answer education dataset and its use in an information retrieval case study
Antoine Lefebvre-Brossard, Stephane Gazaille, Michel C. Desmarais
Data Set Information Retrieval Greater Public Use QA Datasets Multimodal Comprehension

April 6, 2022

Modeling Temporal-Modal Entity Graph for Procedural Multimodal Machine Comprehension
Huibin Zhang, Zhengkun Zhang, Yao Zhang, Jun Wang, Yufan Li, Ning jiang, Xin wei, Zhenglu Yang
Cross Modal Multimodal Comprehension Visual Entity Modal Temporal Relation Graph Learning

March 3, 2022

Vision-Language Intelligence: Tasks, Representation Learning, and Large Models
Feng Li, Hao Zhang, Yi-Fan Zhang, Shilong Liu, Jian Guo, Lionel M. Ni, PengChuan Zhang, Lei Zhang
Representation Learning Vision Language Large Model New Task Single Modality Multimodal Comprehension