Multimodal Knowledge

Multimodal knowledge research focuses on integrating information from diverse sources like text, images, and audio to enhance the capabilities of artificial intelligence models, particularly large language models (LLMs). Current research emphasizes developing methods to effectively fuse these modalities, often employing techniques like graph neural networks, retrieval-augmented generation, and knowledge distillation to improve reasoning, commonsense understanding, and knowledge-based tasks such as visual question answering and open-world video recognition. This field is significant because it addresses limitations of unimodal models, leading to more robust and human-like AI systems with applications in diverse areas including healthcare (e.g., pathology analysis), gaming, and drug discovery.

Papers

May 20, 2022

Visually-Augmented Language Modeling
Weizhi Wang, Li Dong, Hao Cheng, Haoyu Song, Xiaodong Liu, Xifeng Yan, Jianfeng Gao, Furu Wei
Token Level Visual Commonsense Reasoning Semantic Fusion Multimodal Knowledge Augmented Language Model Visual Language Task

May 9, 2022

Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection
Weixin Feng, Xingyuan Bu, Chenchen Zhang, Xubin Li
Language Supervision Multimodal Knowledge Multimodal Supervision

March 17, 2022

MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering
Yang Ding, Jing Yu, Bang Liu, Yue Hu, Mingxin Cui, Qi Wu
Knowledge Based Visual Question Answering Multimodal Knowledge Cross Modal Knowledge Accumulation Pattern Explainable Multimodal

Multimodal Knowledge

Papers

Visually-Augmented Language Modeling

Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection

MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering