Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

March 10, 2023

Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models
Tom van Sonsbeek, Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees G. M. Snoek, Marcel Worring
Language Model Pre Trained Language Model Visual Question Answering Visual Question Medical Visual Question Answering Prefix Tuning Open Ended Visual Question Answering

March 9, 2023

VQA-based Robotic State Recognition Optimized with Genetic Algorithm
Kento Kawaharazuka, Yoshiki Obinata, Naoaki Kanazawa, Kei Okada, Masayuki Inaba
Vision Language Model Non Humanoid Robot Visual Question Answering Genetic Algorithm Robotic Arm Activity State Recognition

March 7, 2023

Graph Neural Networks in Vision-Language Image Understanding: A Survey
Henry Senior, Gregory Slabaugh, Shanxin Yuan, Luca Rossi
Graph Neural Network Timely Survey Visual Question Answering 2 Dimensional Image Captioning Scene Understanding

March 5, 2023

March 2, 2023

MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource Visual Question Answering
Jingjing Jiang, Nanning Zheng
Vision Language Model Visual Question Answering Parameter Efficient Tuning

February 28, 2023

VQA with Cascade of Self- and Co-Attention Blocks
Aakansha Mishra, Ashish Anand, Prithwijit Guha
Visual Question Answering Attention Module Self Information Self Attention Module Attention Block TF Cascade Cross Attention Block

February 25, 2023

Medical visual question answering using joint self-supervised learning
Yuan Zhou, Jing Mei, Yiqin Yu, Tanveer Syeda-Mahmood
Medical Image Visual Question Answering Visual Question Medical Visual Question Answering

February 23, 2023

EVJVQA Challenge: Multilingual Visual Question Answering
Ngan Luu-Thuy Nguyen, Nghia Hieu Nguyen, Duong T. D Vo, Khanh Quoc Tran, Kiet Van Nguyen
Visual Question Answering Open Domain Question

February 19, 2023

Interpretable Medical Image Visual Question Answering via Multi-Modal Relationship Graph Learning
Xinyue Hu, Lin Gu, Kazuma Kobayashi, Qiyuan An, Qingyu Chen, Zhiyong Lu, Chang Su, Tatsuya Harada, Yingying Zhu
Medical Image Visual Question Answering Medical Visual Question Answering Modal Temporal Relation Graph Learning

February 18, 2023

Bridge Damage Cause Estimation Using Multiple Images Based on Visual Question Answering
Tatsuro Yamane, Pang-jo Chun, Ji Dang, Takayuki Okatani
Visual Question Answering Damage Detection Multiple Image Building Damage Detection Bridge Inspection

February 11, 2023

Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis
Zhu Wang, Sourav Medya, Sathya N. Ravi
Visual Question Answering Visual Reasoning Prior Knowledge Knowledge Representation

January 25, 2023

Towards a Unified Model for Generating Answers and Explanations in Visual Question Answering
Chenxi Whitehouse, Tillman Weyde, Pranava Madhyastha
Line by Line Explanation Visual Question Answering Explanation Generation Unified Model Answer Generation Multimodal Encoder Score Based Explanation

January 23, 2023

HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images
Kun Li, George Vosselman, Michael Ying Yang
Computer Vision Visual Question Answering Aerial Image High Resolution Aerial

January 22, 2023

Champion Solution for the WSDM2023 Toloka VQA Challenge
Shengyi Gao, Zhe Chen, Guo Chen, Wenhai Wang, Tong Lu
Visual Question Answering Visual Grounding Cross Modal Localization

January 18, 2023

Towards Models that Can See and Read
Roy Ganz, Oren Nuriel, Aviad Aberdam, Yair Kittenplon, Shai Mazor, Ron Litman
Vision Language Model Full Model Visual Question Answering Scene Text

January 17, 2023

Curriculum Script Distillation for Multilingual Visual Question Answering
Khyathi Raghavi Chandu, Alborz Geramifard
Pre Trained Model Visual Question Answering Code Switched Cross Encoder Curriculum Distillation

December 22, 2022

When are Lemons Purple? The Concept Association Bias of Vision-Language Models
Yutaro Yamada, Yingtian Tang, Yoyo Zhang, Ilker Yildirim
Vision Language Model Visual Question Answering LEMoN Purple Biased Association

December 20, 2022

Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason?
Monika Wysoczańska, Tom Monnier, Tomasz Trzciński, David Picard
Visual Question Answering Visual Representation Unsupervised Setting Feature Wise Visual Reasoning Visual Representation Learning Reason Giving

December 7, 2022

Hierarchical multimodal transformers for Multi-Page DocVQA
Rubèn Tito, Dimosthenis Karatzas, Ernest Valveny
Visual Question Answering Knowledge Based VQA Hierarchical Multi Modal Transformer