Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

August 21, 2024

CluMo: Cluster-based Modality Fusion Prompt for Continual Learning in Visual Question Answering
Yuliang Cai, Mohammad Rostami
Continual LEArning Large Vision Language Model Visual Question Answering Continual Learning Visual Prompting Prompt Fusion Prompt Based Continual Learning

August 16, 2024

A Survey on Benchmarks of Multimodal Large Language Models
Jian Li, Weiheng Lu, Hao Fei, Meng Luo, Ming Dai, Min Xia, Yizhang Jin, Zhenye Gan, Ding Qi, Chaoyou Fu, Ying Tai, Wankou Yang, Yabiao Wang, Chengjie Wang
Timely Survey New Benchmark Multimodal Large Language Model Visual Question Answering Visual Perception Multiple View

August 14, 2024

Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion
Peiyuan Chen, Zecheng Zhang, Yiping Dong, Li Zhou, Han Wang
Visual Question Answering Multimodal Fusion Visual Question

August 9, 2024

Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery
Long Bai, Guankun Wang, Mobarakol Islam, Lalithkumar Seenivasan, An Wang, Hongliang Ren
Medical Image Visual Question Answering Visual Question Robotic Surgery Adversarial Contrastive Learning Medical VQA Surgical Visual Question Answering

August 6, 2024

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI
Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao
Large Vision Language Model Visual Question Answering Medical AI Medical Benchmark

August 1, 2024

Towards Flexible Evaluation for Generative Visual Question Answering
Huishan Ji, Qingyi Si, Zheng Lin, Weiping Wang
Visual Question Answering

July 31, 2024

July 30, 2024

July 29, 2024

VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks
Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim
Data Set Vision Language Domain Generalization Visual Question Answering Vision Language Task Domain Generalizability

July 28, 2024

AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering
Mahiro Ukai, Shuhei Kurita, Atsushi Hashimoto, Yoshitaka Ushiku, Nakamasa Inoue
Visual Question Answering Visual Input Long Input Effective Prompt Prompt Compression

July 22, 2024

Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models
Amir Mohammad Karimi Mamaghan, Samuele Papa, Karl Henrik Johansson, Stefan Bauer, Andrea Dittadi
Foundation Model Comparative Study Visual Question Answering Compositional Generalization Object Centric Representation Compositional Explanation

July 18, 2024

QuIIL at T3 challenge: Towards Automation in Life-Saving Intervention Procedures from First-Person View
Trinh T. L. Vuong, Doanh C. Bui, Jin Tae Kwak
Action Recognition Visual Question Answering Decomposed Automation Correction Action Anticipation Frame Attention First Person Medical Intervention Co Attention

July 17, 2024

ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data
Yufan Shen, Chuwei Luo, Zhaoqing Zhu, Yang Chen, Qi Zheng, Zhi Yu, Jiajun Bu, Cong Yao
Visual Question Answering Complex Process Instruction Data Instruction Dataset

July 16, 2024

TM-PATHVQA:90000+ Textless Multilingual Questions for Medical Visual Question Answering
Tonmoy Rajkhowa, Amartya Roy Chowdhury, Sankalp Nagaonkar, Achyut Mani Tripathi
Visual Question Answering 3d Vqa Medical Visual Question Answering

July 12, 2024

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers
Shraman Pramanick, Rama Chellappa, Subhashini Venugopalan
Data Set Question Answering Visual Question Answering Information Seeking Scientific Paper Multimodal Question

July 11, 2024

Extracting Training Data from Document-Based VQA Models
Francesco Pinto, Nathalie Rauschmayr, Florian Tramèr, Philip Torr, Federico Tombari
Vision Language Model Training Data Visual Question Answering Limited Memorization Page Document VQA Visual Argument

July 9, 2024

VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving
Yibo Liu, Zheyuan Yang, Guile Wu, Yuan Ren, Kejian Lin, Bingbing Liu, Yang Liu, Jinjun Shan
Autonomous Driving Visual Question Answering Diffusion Explainer 3D Asset Wild Image Zero Shot Novel View

July 8, 2024

Large Language Models Understand Layout
Weiming Li, Manni Duan, Dong An, Yan Shao
Large Language Model Language Model Natural Language Processing Natural Language Visual Question Answering

Visual Question Answering

Papers

CluMo: Cluster-based Modality Fusion Prompt for Continual Learning in Visual Question Answering

A Survey on Benchmarks of Multimodal Large Language Models

Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion

Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI

Towards Flexible Evaluation for Generative Visual Question Answering

Vision-Language Model Based Handwriting Verification

Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering

Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration

Pyramid Coder: Hierarchical Code Generator for Compositional Visual Question Answering

VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks

AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering

Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models

QuIIL at T3 challenge: Towards Automation in Life-Saving Intervention Procedures from First-Person View

ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data

TM-PATHVQA:90000+ Textless Multilingual Questions for Medical Visual Question Answering

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

Extracting Training Data from Document-Based VQA Models

VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving

Large Language Models Understand Layout