Visual Question

Visual Question Answering (VQA) aims to develop systems that can accurately answer natural language questions about the content of images or videos. Current research focuses on improving model robustness and accuracy, particularly for complex questions requiring spatial reasoning, multi-modal fusion (combining visual and textual information), and handling diverse question types, often employing large language models (LLMs) and vision transformers (ViTs) within various architectures. The field's significance lies in its potential for applications ranging from assisting visually impaired individuals to enhancing medical diagnosis and autonomous driving, driving advancements in multimodal learning and reasoning.

Papers

June 11, 2023

Weakly Supervised Visual Question Answer Generation
Charani Alampalle, Shamanthak Hegde, Soumya Jahagirdar, Shankar Gangisetty
Question Answer Pair Visual Question QA Datasets Visual Question Generation VQA Dataset

May 7, 2023

OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese
Nghia Hieu Nguyen, Duong T. D. Vo, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
Data Set Visual Question Answering Visual Question Indonesian Language Multimodal Fusion Model Visual Question Answering Model Vietnamese Image Captioning

April 19, 2023

SurgicalGPT: End-to-End Language-Vision GPT for Visual Question Answering in Surgery
Lalithkumar Seenivasan, Mobarakol Islam, Gokul Kannan, Hongliang Ren
Visual Question Answering Visual Question Open Surgery

April 7, 2023

Multilingual Augmentation for Robust Visual Question Answering in Remote Sensing Images
Zhenghang Yuan, Lichao Mou, Xiao Xiang Zhu
Remote Sensing Image Visual Question Robust Representation Remote Sensing Visual Question Answering Augmented Dataset

April 4, 2023

SC-ML: Self-supervised Counterfactual Metric Learning for Debiased Visual Question Answering
Xinyao Shu, Shiyang Yan, Xu Yang, Ziheng Wu, Zhongfeng Chen, Zhenyu Lu
Visual Question Answering Visual Question Corpus Bias Counterfactual Metric

March 14, 2023

ViperGPT: Visual Inference via Python Execution for Reasoning
Dídac Surís, Sachit Menon, Carl Vondrick
End to End Complex Reasoning Visual Question Visual Task Visual Processing Vision and Language Model Visual Inference

March 13, 2023

Polar-VQA: Visual Question Answering on Remote Sensed Ice sheet Imagery from Polar Region
Argho Sarkar, Maryam Rahnemoonfar
Visual Question Answering Visual Question POLAR Keywords

March 10, 2023

Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models
Tom van Sonsbeek, Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees G. M. Snoek, Marcel Worring
Language Model Pre Trained Language Model Visual Question Answering Visual Question Medical Visual Question Answering Prefix Tuning Open Ended Visual Question Answering

March 8, 2023

Interpretable Visual Question Answering Referring to Outside Knowledge
He Zhu, Ren Togo, Takahiro Ogawa, Miki Haseyama
Line by Line Explanation Visual Question Multimodal Input External Knowledge Plausible Explanation Text VQA

February 25, 2023

Medical visual question answering using joint self-supervised learning
Yuan Zhou, Jing Mei, Yiqin Yu, Tanveer Syeda-Mahmood
Medical Image Visual Question Answering Visual Question Medical Visual Question Answering

February 23, 2023

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang
Vision Paper Yes No Question Visual Language Model Visual Question Visual Entity

December 16, 2022

SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering
Feiqi Cao, Siwen Luo, Felipe Nunez, Zean Wen, Josiah Poon, Caren Han
Text Modality Visual Question Relation Augmented Attention Transformer Co Attention

December 14, 2022

EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with Visual Queries
Jinjie Mai, Abdullah Hamdi, Silvio Giancola, Chen Zhao, Bernard Ghanem
3D Object Egocentric Video Visual Question 3D Localization Camera Relocalization 2 Dimensional Localization

December 3, 2022

Visual Question Answering From Another Perspective: CLEVR Mental Rotation Tests
Christopher Beckham, Martin Weiss, Florian Golemo, Sina Honari, Derek Nowrouzezahrai, Christopher Pal
Visual Perspective Visual Reasoning Visual Question Volumetric Representation Canonical Camera Space Transformation Module Mental Rotation

November 24, 2022

Self-supervised vision-language pretraining for Medical visual question answering
Pengfei Li, Gang Liu, Lin Tan, Jinying Liao, Shenjun Zhong
Contrastive Learning Vision Language Visual Question Medical Visual Question Answering

October 26, 2022

What's Different between Visual Question Answering for Machine "Understanding" Versus for Accessibility?
Yang Trista Cao, Kyle Seelman, Kyungjun Lee, Hal Daumé
New Machine Visual Question Answering Human Understanding Visual Question Available Datasets Accessibility Issue

October 24, 2022

VLC-BERT: Visual Question Answering with Contextualized Commonsense Knowledge
Sahithya Ravi, Aditya Chinchure, Leonid Sigal, Renjie Liao, Vered Shwartz
Visual Question Answering BERT Model Commonsense Reasoning Commonsense Knowledge Visual Question Knowledge Based Visual Question Answering Commonsense Transformer

October 10, 2022

Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing
Tim Siebert, Kai Norman Clasen, Mahdyar Ravanbakhsh, Begüm Demir
Remote Sensing Visual Question Modality Specific Fusion Transformer Multi Modal Transformer VQA System Remote Sensing Visual Question Answering

August 17, 2022

ILLUME: Rationalizing Vision-Language Models through Human Interactions
Manuel Brack, Patrick Schramowski, Björn Deiseroth, Kristian Kersting
Vision Language Model Pre Trained Language Model Image Captioning Visual Question Human Interaction Supervised Finetuning

May 25, 2022

Guiding Visual Question Answering with Attention Priors
Thao Minh Le, Vuong Le, Sunil Gupta, Svetha Venkatesh, Truyen Tran
Visual Reasoning Cross Modal Attention Visual Question Language Grounding Attention Head Attention Based Reasoning

Visual Question

Papers

Weakly Supervised Visual Question Answer Generation

OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese

SurgicalGPT: End-to-End Language-Vision GPT for Visual Question Answering in Surgery

Multilingual Augmentation for Robust Visual Question Answering in Remote Sensing Images

SC-ML: Self-supervised Counterfactual Metric Learning for Debiased Visual Question Answering

ViperGPT: Visual Inference via Python Execution for Reasoning

Polar-VQA: Visual Question Answering on Remote Sensed Ice sheet Imagery from Polar Region

Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models

Interpretable Visual Question Answering Referring to Outside Knowledge

Medical visual question answering using joint self-supervised learning

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?

SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering

EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with Visual Queries

Visual Question Answering From Another Perspective: CLEVR Mental Rotation Tests

Self-supervised vision-language pretraining for Medical visual question answering

What's Different between Visual Question Answering for Machine "Understanding" Versus for Accessibility?

VLC-BERT: Visual Question Answering with Contextualized Commonsense Knowledge

Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing

ILLUME: Rationalizing Vision-Language Models through Human Interactions

Guiding Visual Question Answering with Attention Priors