Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

September 15, 2023

D3: Data Diversity Design for Systematic Generalization in Visual Question Answering
Amir Rahimi, Vanessa D'Amario, Moyuru Yamada, Kentaro Takemoto, Tomotake Sasaki, Xavier Boix
Visual Question Answering Systematic Generalization Data Diversity Neural Module

September 7, 2023

Interpretable Visual Question Answering via Reasoning Supervision
Maria Parelli, Dimitrios Mallis, Markos Diomataris, Vassilis Pitsikalis
Visual Question Answering Visual Grounding Visual Attention Visual Commonsense Reasoning

August 31, 2023

Separate and Locate: Rethink the Text in Text-based Visual Question Answering
Chengyang Fang, Jiangnan Li, Liang Li, Can Ma, Dayong Hu
Text Modality Visual Question Answering VQA Task VQA Dataset Locate Anything OCR Information

August 17, 2023

Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language Tasks
Fawaz Sammani, Nikos Deligiannis
Visual Question Answering Vision Paper Vision Language Task Natural Language Explanation Textual Explanation NLI Datasets Higher NLE Quality

August 11, 2023

Detecting and Preventing Hallucinations in Large Vision Language Models
Anisha Gunjal, Jihan Yin, Erhan Bas
Fine Grained Data Detection Large Vision Language Model Visual Question Answering Mitigating Hallucination Hallucination Detection

August 3, 2023

RealCQA: Scientific Chart Question Answering as a Test-bed for First-Order Logic
Saleem Ahmed, Bhavin Jawade, Shubham Pandey, Srirangaraj Setlur, Venu Govindaraju
Visual Question Answering Visual Question First Order Logic Chart Question Answering Chart Generation

July 28, 2023

July 26, 2023

LOIS: Looking Out of Instance Semantics for Visual Question Answering
Siyu Zhang, Yeming Chen, Yaoru Sun, Fang Wang, Haibo Shi, Haoran Wang
Visual Question Answering Visual Semantic Visual Processing Level Semantics Visual Reasoning Capability VQA Benchmark

July 22, 2023

Revisiting Distillation for Continual Learning on Visual Question Localized-Answering in Robotic Surgery
Long Bai, Mobarakol Islam, Hongliang Ren
Continual LEArning Visual Question Answering Mutual Distillation Robotic Surgery Surgical Visual Question Answering

July 21, 2023

Robust Visual Question Answering: Datasets, Methods, and Future Challenges
Jie Ma, Pinghui Wang, Dechen Kong, Zewei Wang, Jun Liu, Hongbin Pei, Junzhou Zhao
Data Set Vision Language NCD Method Visual Question Answering 3d Vqa VQA System Text VQA

July 19, 2023

July 18, 2023

July 11, 2023

CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery
Long Bai, Mobarakol Islam, Hongliang Ren
Vision Language Visual Question Answering Visual Question Robotic Surgery Surgical Video Surgical Scene Understanding Surgical Visual Question Answering

July 3, 2023

Localized Questions in Medical Visual Question Answering
Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman
Visual Question Answering Region Specific Medical Visual Question Answering

June 29, 2023

Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question Answering
Abhirama Subramanyam Penamakuri, Manish Gupta, Mithun Das Gupta, Anand Mishra
Visual Question Answering HotPotQA Dataset VQA Task Answer Extraction Relevance Encoding Network

June 25, 2023

Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck
Jayesh Songara, Shivam Pande, Shabnam Choudhury, Biplab Banerjee, Rajbabu Velmurugan
Visual Question Answering Remote Sensing Cross Attention Information Bottleneck Visual Question CNN LSTM Representation Bottleneck

June 16, 2023

Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering
Rabiul Awal, Le Zhang, Aishwarya Agrawal
Vision Language Model Question Answering Visual Question Answering Better Zero Open Ended Visual Question Answering

Visual Question Answering

Papers

D3: Data Diversity Design for Systematic Generalization in Visual Question Answering

Interpretable Visual Question Answering via Reasoning Supervision

Separate and Locate: Rethink the Text in Text-based Visual Question Answering

Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language Tasks

Detecting and Preventing Hallucinations in Large Vision Language Models

RealCQA: Scientific Chart Question Answering as a Test-bed for First-Order Logic

Context-VQA: Towards Context-Aware and Purposeful Visual Question Answering

BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers Models for Vietnamese Visual Question Answering

LOIS: Looking Out of Instance Semantics for Visual Question Answering

Revisiting Distillation for Continual Learning on Visual Question Localized-Answering in Robotic Surgery

Robust Visual Question Answering: Datasets, Methods, and Future Challenges

Explaining Autonomous Driving Actions with Visual Question Answering

A reinforcement learning approach for VQA validation: an application to diabetic macular edema grading

Towards a performance analysis on pre-trained Visual Question Answering models for autonomous driving

Generative Visual Question Answering

CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

Localized Questions in Medical Visual Question Answering

Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question Answering

Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck

Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering