Large Vision Language Model

Large Vision-Language Models (LVLMs) integrate computer vision and natural language processing to enable machines to understand and reason about images and text simultaneously. Current research focuses on improving LVLMs' accuracy, efficiency, and robustness, particularly addressing issues like hallucinations (generating inaccurate information), and enhancing their ability to perform multi-level visual perception and reasoning tasks, including quantitative spatial reasoning and mechanical understanding. These advancements are significant for various applications, including medical image analysis, robotics, and autonomous driving, by enabling more reliable and insightful multimodal data processing.

Papers

March 29, 2024

VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis
Chao Pang, Xingxing Weng, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun, Weijia Li, Shuai Wang, Litong Feng, Gui-Song Xia, Conghui He
Vision Language Model Large Vision Language Model Remote Sensing Visual Question Answering Remote Sensing Vision Language

March 27, 2024

March 23, 2024

Explore until Confident: Efficient Exploration for Embodied Question Answering
Allen Z. Ren, Jaden Clark, Anushri Dixit, Masha Itkina, Anirudha Majumdar, Dorsa Sadigh
Large Vision Language Model Efficient Exploration High Confidence Semantic Map Habitat Matterport 3D Embodied Question Answering

March 22, 2024

Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery
Guankun Wang, Long Bai, Wan Jun Nah, Jie Wang, Zhaoxi Zhang, Zhen Chen, Jinlin Wu, Mobarakol Islam, Hongbin Liu, Hongliang Ren
Large Vision Language Model Pre Trained Vision Language Model Visual Language Model Robotic Surgery Visual Language Task Surgical Visual Question Answering

March 20, 2024

SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models
Tongtian Yue, Jie Cheng, Longteng Guo, Xingyuan Dai, Zijia Zhao, Xingjian He, Gang Xiong, Yisheng Lv, Jing Liu
Large Vision Language Model Hyper Tune Vision Language Benchmark Referring Expression

March 19, 2024

March 18, 2024

A Sober Look at the Robustness of CLIPs to Spurious Features
Qizhou Wang, Yong Lin, Yongqiang Chen, Ludwig Schmidt, Bo Han, Tong Zhang
Supervised ImageNet Large Vision Language Model Real World Dataset Spurious Feature ImageNet Benchmark

March 17, 2024

PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset
Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li
Large Vision Language Model Language Model Hallucination Order Derivative Hallucination Dataset

March 15, 2024

March 14, 2024

March 13, 2024

March 12, 2024

TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection
Hanning Chen, Wenjun Huang, Yang Ni, Sanggeon Yun, Yezi Liu, Fei Wen, Alvaro Velasquez, Hugo Latapie, Mohsen Imani
Large Vision Language Model General Object