Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

September 28, 2022

TVLT: Textless Vision-Language Transformer
Zineng Tang, Jaemin Cho, Yixin Nie, Mohit Bansal
Visual Question Answering Language Representation Vision Language Representation Vision Language Transformer

September 24, 2022

Towards Explainable 3D Grounded Visual Question Answering: A New Benchmark and Strong Baseline
Lichen Zhao, Daigang Cai, Jing Zhang, Lu Sheng, Dong Xu, Rui Zheng, Yinjie Zhao, Lipeng Wang, Xibo Fan
New Benchmark Visual Question Answering Strong Baseline 3D Understanding

September 21, 2022

September 18, 2022

Overcoming Language Priors in Visual Question Answering via Distinguishing Superficially Similar Instances
Yike Wu, Yu Zhao, Shiwan Zhao, Ying Zhang, Xiaojie Yuan, Guoqing Zhao, Ning Jiang
Visual Question Answering Language Prior

September 14, 2022

MUST-VQA: MUltilingual Scene-text VQA
Emanuele Vivoli, Ali Furkan Biten, Andres Mafla, Dimosthenis Karatzas, Lluis Gomez
Visual Question Answering Multilingual Language Model Scene Text 3d Vqa

September 12, 2022

MaXM: Towards Multilingual Visual Question Answering
Soravit Changpinyo, Linting Xue, Michal Yarom, Ashish V. Thapliyal, Idan Szpektor, Julien Amelot, Xi Chen, Radu Soricut
Visual Question Answering Image Captioning Open Domain Question

September 9, 2022

Pre-training image-language transformers for open-vocabulary tasks
AJ Piergiovanni, Weicheng Kuo, Anelia Angelova
Visual Question Answering Open Vocabulary Transformer Language Model Generative Vision Language Model Language Transformer Visual Entailment Caption Data

September 7, 2022

Improving the Cross-Lingual Generalisation in Visual Question Answering
Farhad Nooralahzadeh, Rico Sennrich
Visual Question Answering Cross Lingual Transfer Pre Trained Vision Language Model Multilingual Vision Cross Lingual Generalisation

August 19, 2022

VLMAE: Vision-Language Masked Autoencoder
Sunan He, Taian Guo, Tao Dai, Ruizhi Qiao, Chen Wu, Xiujun Shu, Bo Ren
Vision Language Visual Question Answering Masked AutoEncoder Autoencoder Framework Vision Language Downstream Task Masked Autoencoder

August 10, 2022

Aesthetic Visual Question Answering of Photographs
Xin Jin, Wu Zhou, Xinghui Zhou, Shuai Cui, Le Zhang, Jianwen Lv, Shu Zhao
Visual Question Answering Aesthetic Attribute VQA System Aesthetic Assessment

August 1, 2022

Generative Bias for Robust Visual Question Answering
Jae Won Cho, Dong-jin Kim, Hyeonggon Ryu, In So Kweon
Generative Model Visual Question Answering Adversarial Objective

July 27, 2022

Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base
Jinyeong Chae, Jihie Kim
Visual Question Answering Knowledge Base Image Caption Semantic Consistency Knowledge Based Visual Question VQA Dataset

July 25, 2022

July 24, 2022

Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem
Yudong Han, Liqiang Nie, Jianhua Yin, Jianlong Wu, Yan Yan
Visual Question Answering Language Prior Collaborative Adversarial Representation Calibration

July 21, 2022

Semantic-aware Modular Capsule Routing for Visual Question Answering
Yudong Han, Jianhua Yin, Jianlong Wu, Yinwei Wei, Liqiang Nie
Visual Question Answering Capsule Network Visual Semantic Neural Module