Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

April 15, 2024

Bridging Vision and Language Spaces with Assignment Prediction
Jungin Park, Jiyoung Lee, Kwanghoon Sohn
Visual Question Answering Visual Representation Vision Language Task Cross Modal Retrieval Language Representation Language Space Bridging Vision

April 12, 2024

Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts
Övgü Özdemir, Erdem Akagündüz
Visual Question Answering Complex Prompt Visual Question Zero Shot Visual Question Answering Question Driven Image Caption

April 8, 2024

HAMMR: HierArchical MultiModal React agents for generic VQA
Lluis Castrejon, Thomas Mensink, Howard Zhou, Vittorio Ferrari, Andre Araujo, Jasper Uijlings
Visual Question Answering Multi Modal Multimodal Task

April 6, 2024

April 1, 2024

Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs
Jialou Wang, Manli Zhu, Yulei Li, Honglei Li, Longzhi Yang, Wai Lok Woo
Medical LLM Visual Question Answering Visual Representation 3d Vqa VQA System

March 30, 2024

Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training
Tongkun Su, Jun Li, Xi Zhang, Haibo Jin, Hao Chen, Qiong Wang, Faqin Lv, Baoliang Zhao, Yin Hu
Product Design Visual Question Answering Pre Training Multimodal Phenomenon Visual Question Multimodal Pre Modality Alignment

March 29, 2024

Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models
Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa
Vision Language Model Visual Question Answering Comprehensive Trustworthiness Omission Detection

March 27, 2024

Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective
Meiqi Chen, Yixin Cao, Yan Zhang, Chaochao Lu
Multimodal Large Language Model Visual Question Answering Multimodal LLM Causal Analysis Unimodal Bias

March 26, 2024

March 21, 2024

March 20, 2024

Improved Baselines for Data-efficient Perceptual Augmentation of LLMs
Théophane Vallaeys, Mustafa Shukor, Matthieu Cord, Jakob Verbeek
Large Language Model Language Model Visual Question Answering Vision Language Task Perceptual Concept

March 19, 2024

WoLF: Wide-scope Large Language Model Framework for CXR Understanding
Seil Kang, Donghyun Kim, Junhyeok Kim, Hyo Kyung Lee, Seong Jae Hwang
Visual Question Answering Chest X Ray Anatomical Structure Medical Visual Question Answering Chest X Ray Report Generation Whole Body Locomotion

March 18, 2024

SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors
Chenyang Ma, Kai Lu, Ta-Ying Cheng, Niki Trigoni, Andrew Markham
Vision Language Model Visual Question Answering Spatial Reasoning 3D Prior

March 17, 2024

Few-Shot VQA with Frozen LLMs: A Tale of Two Approaches
Igor Sterner, Weizhe Lin, Jinghong Chen, Bill Byrne
Large Language Model Constructive Approach Visual Question Answering Image Caption Cautionary TALE Visual Embeddings Frozen Large Language Model Multimodal Few Shot

March 15, 2024

Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models
Tian Meng, Yang Tao, Ruilin Lyu, Wuliang Yin
Vision Language Model Image Classification Segmentation Based Approach Visual Question Answering Vision Model Shot Image Classification

March 12, 2024

Beyond Text: Frozen Large Language Models in Visual Signal Comprehension
Lei Zhu, Fangyun Wei, Yanye Lu
Large Language Model Text Modality Visual Question Answering Visual Understanding

March 7, 2024

SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLM
Jielin Qiu, Andrea Madotto, Zhaojiang Lin, Paul A. Crook, Yifan Ethan Xu, Xin Luna Dong, Christos Faloutsos, Lei Li, Babak Damavandi, Seungwhan Moon
Visual Question Answering Entity Centric Question

Visual Question Answering

Papers

Bridging Vision and Language Spaces with Assignment Prediction

Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts

HAMMR: HierArchical MultiModal React agents for generic VQA

Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement

Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models

Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs

Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training

Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective

Intrinsic Subgraph Generation for Interpretable Graph based Visual Question Answering

A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions

Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering

MyVLM: Personalizing VLMs for User-Specific Queries

Improved Baselines for Data-efficient Perceptual Augmentation of LLMs

WoLF: Wide-scope Large Language Model Framework for CXR Understanding

SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors

Few-Shot VQA with Frozen LLMs: A Tale of Two Approaches

Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models

Beyond Text: Frozen Large Language Models in Visual Signal Comprehension

SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLM