Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

December 15, 2023

Privacy-Aware Document Visual Question Answering
Rubèn Tito, Khanh Nguyen, Marlon Tobaben, Raouf Kerkouche, Mohamed Ali Souibgui, Kangsoo Jung, Joonas Jälkö, Vincent Poulain D'Andecy, Aurelie Joseph, Lei Kang, Ernest Valveny, Antti Honkela, Mario Fritz, Dimosthenis Karatzas
Visual Question Answering

December 14, 2023

VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation
Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan
Language Understanding Faithful Generation Visual Question Answering Text to Image Generation Generative Question Generative Vision Language Model

December 11, 2023

NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations
Yuichi Inoue, Yuki Yada, Kotaro Tanahashi, Yu Yamaguchi
Autonomous Driving Vision Language Model Visual Question Answering Yes No Question Generated Caption Autonomous Driving Task Semantic Markup

December 4, 2023

December 1, 2023

Zero-Shot Video Question Answering with Procedural Programs
Rohan Choudhury, Koichiro Niinuma, Kris M. Kitani, László A. Jeni
Visual Question Answering Video Understanding Video Task Multimodal Demonstration Procedural Video

November 29, 2023

Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering
Zeqing Wang, Wentao Wan, Qiqing Lao, Runmeng Chen, Minjie Lang, Keze Wang, Liang Lin
Complex Reasoning Visual Question Answering

November 28, 2023

LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models
Yanwei Li, Chengyao Wang, Jiaya Jia
Vision Language Model Visual Question Answering K TOKEN Token Generation Purple LLaMA CyberSecEval

November 27, 2023

Fully Authentic Visual Question Answering Dataset from Online Communities
Chongyan Chen, Mengchen Liu, Noel Codella, Yunsheng Li, Lu Yuan, Danna Gurari
Data Set Visual Question Answering Visual Question Online Community

November 24, 2023

GeoChat: Grounded Large Vision-Language Model for Remote Sensing
Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abhijit Das, Salman Khan, Fahad Shahbaz Khan
Large Vision Language Model Visual Question Answering Remote Sensing Dialogue Utterance Multi Modal Instruction

November 15, 2023

Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts
Yunshi Lan, Xiang Li, Xin Liu, Yang Li, Wei Qin, Weining Qian
Visual Question Answering Zero Shot Visual Question Answering Unsupervised Question

November 13, 2023

What Large Language Models Bring to Text-rich VQA?
Xuejing Liu, Wei Tang, Xinzhe Ni, Jinghui Lu, Rui Zhao, Zechao Li, Fei Tan
Visual Question Answering Image Understanding Page Document VQA Text VQA

November 11, 2023

Visual Commonsense based Heterogeneous Graph Contrastive Learning
Zongzhao Li, Xiangyu Zhu, Xi Zhang, Zhaoxiang Zhang, Zhen Lei
Visual Question Answering Visual Reasoning Visual Commonsense Heterogeneous Graph Contrastive Commonsense Learning

November 8, 2023

Zero-shot Translation of Attention Patterns in VQA Models to Natural Language
Leonard Salewski, A. Sophia Koepke, Hendrik P. A. Lensch, Zeynep Akata
Language Model Natural Language Visual Question Answering Image Captioning Zero Shot Translation Attention Pattern

November 1, 2023

October 31, 2023

Language Guided Visual Question Answering: Elevate Your Multimodal Language Model Using Knowledge-Enriched Prompts
Deepanway Ghosal, Navonil Majumder, Roy Ka-Wei Lee, Rada Mihalcea, Soujanya Poria
Visual Question Answering Multimodal Language Model Knowledge Based Visual Question Answering Prompt Based Knowledge Natural Language Answer