Large Vision Language Model

Large Vision-Language Models (LVLMs) integrate computer vision and natural language processing to enable machines to understand and reason about images and text simultaneously. Current research focuses on improving LVLMs' accuracy, efficiency, and robustness, particularly addressing issues like hallucinations (generating inaccurate information), and enhancing their ability to perform multi-level visual perception and reasoning tasks, including quantitative spatial reasoning and mechanical understanding. These advancements are significant for various applications, including medical image analysis, robotics, and autonomous driving, by enabling more reliable and insightful multimodal data processing.

Papers

June 9, 2024

EmbSpatial-Bench: Benchmarking Spatial Understanding for Embodied Tasks with Large Vision-Language Models
Mengfei Du, Binhao Wu, Zejun Li, Xuanjing Huang, Zhongyu Wei
Large Vision Language Model MT Bench Spatial Relation Spatial Understanding Egocentric View Embodied Task

June 7, 2024

Text-Guided Alternative Image Clustering
Andreas Stephan, Lukas Miklautz, Collin Leiber, Pedro Henrique Luz de Araujo, Dominik Répás, Claudia Plant, Benjamin Roth
Large Vision Language Model Image Text Image Clustering Consensus Clustering

June 6, 2024

June 5, 2024

CountCLIP -- [Re] Teaching CLIP to Count to Ten
Harshvardhan Mestha, Tejas Agrawal, Karan Bania, Shreyas V, Yash Bhisikar
Zero Shot Large Vision Language Model Contrastive Loss Single CLIP Zero Shot Classification Borda Counting

June 3, 2024

GeoReasoner: Geo-localization with Reasoning in Street Views using a Large Vision-Language Model
Ling Li, Yu Ye, Bingchuan Jiang, Wei Zeng
Complex Reasoning Large Vision Language Model Street View Street Level

June 1, 2024

Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs
Mohammed Saidul Islam, Raian Rahman, Ahmed Masry, Md Tahmid Rahman Laskar, Mir Tafseer Nayeem, Enamul Hoque
Complex Reasoning Large Vision Language Model Capability Evolution Chart Comprehension Vision Language Reasoning Chart Question Answering

May 30, 2024

May 29, 2024

May 28, 2024

May 25, 2024

Streaming Long Video Understanding with Large Language Models
Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Shuangrui Ding, Dahua Lin, Jiaqi Wang
Large Vision Language Model Video Understanding Long Form Video Understanding

May 24, 2024

Large Vision Language Model

Papers

EmbSpatial-Bench: Benchmarking Spatial Understanding for Embodied Tasks with Large Vision-Language Models

Text-Guided Alternative Image Clustering

DiffuSyn Bench: Evaluating Vision-Language Models on Real-World Complexities with Diffusion-Generated Synthetic Benchmarks

Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt

CountCLIP -- [Re] Teaching CLIP to Count to Ten

GeoReasoner: Geo-localization with Reasoning in Street Views using a Large Vision-Language Model

Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs

Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals

Enhancing Large Vision Language Models with Self-Training on Image Comprehension

Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models

Matryoshka Query Transformer for Large Vision-Language Models

MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification

ChartFormer: A Large Vision Language Model for Converting Chart Images into Tactile Accessible SVGs

White-box Multimodal Jailbreaks Against Large Vision-Language Models

RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in Large Vision Language Models

Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models

Streaming Long Video Understanding with Large Language Models

Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs

Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization