Large Vision Language Model

Large Vision-Language Models (LVLMs) integrate computer vision and natural language processing to enable machines to understand and reason about images and text simultaneously. Current research focuses on improving LVLMs' accuracy, efficiency, and robustness, particularly addressing issues like hallucinations (generating inaccurate information), and enhancing their ability to perform multi-level visual perception and reasoning tasks, including quantitative spatial reasoning and mechanical understanding. These advancements are significant for various applications, including medical image analysis, robotics, and autonomous driving, by enabling more reliable and insightful multimodal data processing.

Papers

March 12, 2024

VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark
Han Huang, Haitian Zhong, Tao Yu, Qiang Liu, Shu Wu, Liang Wang, Tieniu Tan
Language Model Large Vision Language Model Knowledge Editing Multi Modal Knowledge Graph Editing Benchmark

March 11, 2024

March 8, 2024

Debiasing Multimodal Large Language Models
Yi-Fan Zhang, Weichen Yu, Qingsong Wen, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan
Language Model Large Vision Language Model Visual Input Contrastive Decoding Ambiguous Input

March 7, 2024

Effectiveness Assessment of Recent Large Vision-Language Models
Yao Jiang, Xinyu Yan, Ge-Peng Ji, Keren Fu, Meijun Sun, Huan Xiong, Deng-Ping Fan, Fahad Shahbaz Khan
Large Vision Language Model Visual Recognition Multimodal Understanding

March 4, 2024

FakeNewsGPT4: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs
Xuannan Liu, Peipei Li, Huaibo Huang, Zekun Li, Xing Cui, Jiahao Liang, Lixiong Qin, Weihong Deng, Zhaofeng He
Large Vision Language Model Fake News Fake News Detection Forgery Cue Knowledge Augmentation Multimodal Misinformation Cross Modal Reasoning

March 3, 2024

March 1, 2024

February 29, 2024

Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model
Hao Cheng, Erjia Xiao, Jindong Gu, Le Yang, Jinhao Duan, Jize Zhang, Jiahang Cao, Kaidi Xu, Renjing Xu
Large Vision Language Model DCU Insight AQ Contrastive Language Image Typographic Attack Kinetic Typography

February 28, 2024

February 26, 2024

Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models
Jeonghwan Kim, Heng Ji
Fine Grained Large Vision Language Model Fine Grained Visual

February 24, 2024

February 23, 2024

February 21, 2024

BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models
Xueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong, Lemao Liu, Wei Bi, Lingpeng Kong
Complex Reasoning Large Vision Language Model Multi Step Reasoning Reasoning ChAin Multimodal Reasoning Multi Modal Reasoning Behavioral Alignment