Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

July 6, 2022

Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for Grounding Relative Directions via Multi-Task Learning
Kyra Ahrens, Matthias Kerzel, Jae Hee Lee, Cornelius Weber, Stefan Wermter
Multi Task Learning Visual Question Answering Spatial Reasoning Interpretable Direction Medical Visual Question Answering

July 5, 2022

Weakly Supervised Grounding for VQA in Vision-Language Transformers
Aisha Urooj Khan, Hilde Kuehne, Chuang Gan, Niels Da Vitoria Lobo, Mubarak Shah
Visual Question Answering Visual Grounding Self Attention Layer Visual Encoder Vision Language Transformer

June 30, 2022

A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA
Yangyang Guo, Liqiang Nie, Yongkang Wong, Yibing Liu, Zhiyong Cheng, Mohan Kankanhalli
Visual Question Answering Implicit Knowledge Knowledge Based Visual Question Answering Retriever Reader Multi Modal Knowledge

June 29, 2022

EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual Question Answering
Violetta Shevchenko, Ehsan Abbasnejad, Anthony Dick, Anton van den Hengel, Damien Teney
Contrastive Learning Self Supervised Learning Pre Trained Visual Question Answering Visual Representation Energy Based Model Self Supervised Method 2 Dimensional Vision Language Model

June 27, 2022

Consistency-preserving Visual Question Answering in Medical Imaging
Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman
Visual Question Answering Medical Imaging Answer Correctness

June 25, 2022

From Shallow to Deep: Compositional Reasoning over Graphs for Visual Question Answering
Zihao Zhu
Graph Neural Network Graph Drawing Visual Question Answering Visual Reasoning Compositional Reasoning Neural Module Shallow Water

June 22, 2022

June 10, 2022

Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model
Fabian Deuser, Konrad Habel, Philipp J. Rösch, Norbert Oswald
Visual Question Answering Text Encoder Linear Classifier Multi Modal Task Answer Selection Linear Layer

June 7, 2022

cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation
Kshitij Gupta, Devansh Gautam, Radhika Mamidi
Knowledge Distillation Vision Language Model Visual Question Answering Cross Lingual Vision Language Task Monolingual Model Vision and Language Model Sequence Classifier

June 4, 2022

From Pixels to Objects: Cubic Visual Attention for Visual Question Answering
Jingkuan Song, Pengpeng Zeng, Lianli Gao, Heng Tao Shen
Visual Question Answering Arbitrary Object Tetromino Pixel Channel Attention Visual Question Answering Model 3D Attention

June 3, 2022

A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge
Dustin Schwenk, Apoorv Khandelwal, Christopher Clark, Kenneth Marino, Roozbeh Mottaghi
Vision Language Model New Benchmark Visual Question Answering Commonsense Reasoning World Knowledge

June 2, 2022

May 24, 2022

Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization
Aishwarya Agrawal, Ivana Kajić, Emanuele Bugliarello, Elnaz Davoodi, Anita Gergely, Phil Blunsom, Aida Nematzadeh
Case Study Vision Language Visual Question Answering Distribution Generalization Multimodal Pre Evaluation Practice

May 23, 2022

VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering
Yanan Wang, Michihiro Yasunaga, Hongyu Ren, Shinya Wada, Jure Leskovec
Graph Neural Network Complex Reasoning Visual Question Answering Multimodal Knowledge

May 17, 2022

Gender and Racial Bias in Visual Question Answering Datasets
Yusuke Hirota, Yuta Nakashima, Noa Garcia
Visual Question Answering Gender Bias Vision Language Task Gender Inclusive Text Racial Bias Language Bias

May 16, 2022

A Neuro-Symbolic ASP Pipeline for Visual Question Answering
Thomas Eiter, Nelson Higuera, Johannes Oetsch, Michael Pritz
Visual Question Answering Neuro Symbolic Bounding Box Neuro Symbolic Approach Scene Encoder

May 6, 2022

QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary Visual Reasoning
Zechen Li, Anders Søgaard
Synthetic Data Visual Question Answering Visual Reasoning Existential Quantifier Visual Question Answering Model Diagnostic Dataset Visual Reasoning Ability

May 5, 2022

What is Right for Me is Not Yet Right for You: A Dataset for Grounding Relative Directions via Multi-Task Learning
Jae Hee Lee, Matthias Kerzel, Kyra Ahrens, Cornelius Weber, Stefan Wermter
Data Set Multi Task Learning Visual Question Answering Interpretable Direction Spatial Relation

Visual Question Answering

Papers

Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for Grounding Relative Directions via Multi-Task Learning

Weakly Supervised Grounding for VQA in Vision-Language Transformers

A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA

EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual Question Answering

Consistency-preserving Visual Question Answering in Medical Imaging

From Shallow to Deep: Compositional Reasoning over Graphs for Visual Question Answering

VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives

Surgical-VQA: Visual Question Answering in Surgical Scenes using Transformer

Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model

cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation

From Pixels to Objects: Cubic Visual Attention for Visual Question Answering

A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge

VL-BEiT: Generative Vision-Language Pretraining

Structured Two-stream Attention Network for Video Question Answering

Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization

VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering

Gender and Racial Bias in Visual Question Answering Datasets

A Neuro-Symbolic ASP Pipeline for Visual Question Answering

QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary Visual Reasoning

What is Right for Me is Not Yet Right for You: A Dataset for Grounding Relative Directions via Multi-Task Learning