Large Vision Language Model

Large Vision-Language Models (LVLMs) integrate computer vision and natural language processing to enable machines to understand and reason about images and text simultaneously. Current research focuses on improving LVLMs' accuracy, efficiency, and robustness, particularly addressing issues like hallucinations (generating inaccurate information), and enhancing their ability to perform multi-level visual perception and reasoning tasks, including quantitative spatial reasoning and mechanical understanding. These advancements are significant for various applications, including medical image analysis, robotics, and autonomous driving, by enabling more reliable and insightful multimodal data processing.

Papers

November 9, 2024

November 6, 2024

H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models
Nhi Pham, Michael Schott
Fine Grained Large Vision Language Model Content Hallucination Part Whole Hierarchy Linear Probing Visual Input

November 5, 2024

November 3, 2024

Integration of Large Vision Language Models for Efficient Post-disaster Damage Assessment and Reporting
Zhaohui Chen, Elyas Asadi Shamsabadi, Sheng Jiang, Luming Shen, Daniel Dias-da-Costa
Large Vision Language Model Disaster Response Bethesda Report MLLM Agent

November 1, 2024

Phase Diagram of Vision Large Language Models Inference: A Perspective from Interaction across Image and Instruction
Houjing Wei, Hakaze Cho, Yuting Shi, Naoya Inoue
Large Vision Language Model Human Instruction Interaction Generation Token Embeddings Phase Diagram

October 31, 2024

EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection
Qinqian Lei, Bo Wang, Robby T. Tan
Data Detection Large Vision Language Model Human Object Interaction Prompt Based Learning Unseen Class Visual Encoder

October 29, 2024

October 28, 2024

October 25, 2024

October 22, 2024

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin
Large Vision Language Model Visual Token Image Token Fine Scale Gaussian Pyramid Level

October 21, 2024

Mitigating Object Hallucination via Concentric Causal Attention
Yun Xing, Yiheng Li, Ivan Laptev, Shijian Lu
Large Vision Language Model Mitigating Hallucination Causal Attention Object Hallucination Hallucination Benchmark