Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

June 15, 2023

Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories
Thomas Mensink, Jasper Uijlings, Lluis Castrejon, Arushi Goel, Felipe Cadar, Howard Zhou, Fei Sha, André Araujo, Vittorio Ferrari
Large Vision Language Model Visual Question Answering Retrieval Augmented Visual Question Many Property Fine Grained Category

June 14, 2023

Improving Selective Visual Question Answering by Learning from Your Peers
Corentin Dancette, Spencer Whitehead, Rishabh Maheshwary, Ramakrishna Vedantam, Stefan Scherer, Xinlei Chen, Matthieu Cord, Marcus Rohrbach
Visual Question Answering Peer Agent Selective Prediction

June 13, 2023

Visual Question Answering (VQA) on Images with Superimposed Text
Venkat Kodali, Daniel Berleant
Medical Image Visual Question Answering 3d Vqa Text Annotation VQA Task VQA Benchmark

June 8, 2023

June 6, 2023

June 1, 2023

May 31, 2023

May 30, 2023

Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge
Xingyu Fu, Sheng Zhang, Gukyeong Kwon, Pramuditha Perera, Henghui Zhu, Yuhao Zhang, Alexander Hanbo Li, William Yang Wang, Zhiguo Wang, Vittorio Castelli, Patrick Ng, Dan Roth, Bing Xiang
Pre Trained Language Model Visual Question Answering Generate Quick Answer Selection World Knowledge Open Ended Visual Question Answering

May 28, 2023

HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language
Shantipriya Parida, Idris Abdulmumin, Shamsuddeen Hassan Muhammad, Aneesh Bose, Guneet Singh Kohli, Ibrahim Said Ahmad, Ketan Kotwal, Sayan Deb Sarkar, Ondřej Bojar, Habeebah Adamu Kakudi
Data Set Visual Question Answering Multimodal Dataset Multimodal Machine Translation Multimodal Analysis Visual Question Generation

May 27, 2023

Modularized Zero-shot VQA with Pre-trained Models
Rui Cao, Jing Jiang
Pre Trained Model Visual Question Answering Zero Shot Learning Zero Shot Visual Question Answering

May 24, 2023

Visual Question Answering

Papers

Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories

Improving Selective Visual Question Answering by Learning from Your Peers

Visual Question Answering (VQA) on Images with Superimposed Text

Modular Visual Question Answering via Code Generation

Knowledge Detection by Relevant Question and Image Attributes in Visual Question Answering

Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images!

An Approach to Solving the Abstraction and Reasoning Corpus (ARC) Challenge

Diversifying Joint Vision-Language Tokenization Learning

Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering

Overcoming Language Bias in Remote Sensing Visual Question Answering via Adversarial Training

Using Visual Cropping to Enhance Fine-Detail Question Answering of BLIP-Family Models

Unveiling Cross Modality Bias in Visual Question Answering: A Causal View with Possible Worlds VQA

Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models

Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge

HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language

Modularized Zero-shot VQA with Pre-trained Models

Measuring Faithful and Plausible Visual Grounding in VQA

Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering

NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario

GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions