Visual Question Answer

Visual Question Answering (VQA) focuses on enabling computers to answer questions about images or videos, bridging the gap between visual perception and natural language understanding. Current research emphasizes improving the accuracy and robustness of VQA systems, particularly for handling long-form answers, addressing questions from visually impaired users, and extracting information from diverse sources like medical videos and documents. This involves developing sophisticated multimodal models that integrate visual and textual information, often leveraging large language models and contrastive learning techniques to improve performance. The advancements in VQA have significant implications for accessibility, medical diagnosis support, and information retrieval from visual data.

Papers

December 15, 2024

Overview of TREC 2024 Medical Video Question Answering (MedVidQA) Track
Deepak Gupta, Dina Demner-Fushman
Vision Language Medical Visual Question Answering Video Language Shared Track TREC Total Recall Language Vision Model Visual Question Answer

August 12, 2024

Long-Form Answers to Visual Questions from Blind and Low Vision People
Mina Huh, Fangyuan Xu, Yi-Hao Peng, Chongyan Chen, Hansika Murugu, Danna Gurari, Eunsol Choi, Amy Pavel
Visual Question Long Form Answer Visual Question Answer

April 3, 2024

VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments
Bufang Yang, Lixing He, Kaiwei Liu, Zhenyu Yan
Multi Modal Large Language Model Visual Perception User Base Visual Understanding Visual Impairment BERTScore Metric Transportation Typology Visual Question Answer

September 21, 2023

Towards Answering Health-related Questions from Medical Videos: Datasets and Approaches
Deepak Gupta, Kush Attal, Dina Demner-Fushman
Data Set Constructive Approach Fully Connected CRFs Health Related Medical Video Visual Question Answer Visual Answer Localization

October 11, 2022

Learning to Locate Visual Answer in Video Corpus Using Question
Bin Li, Yixuan Weng, Bin Sun, Shutao Li
LeArning Abstract Cross Modal Yes No Question Video Corpus Moment Retrieval Video Corpus Visual Answer Localization Visual Question Answer

May 27, 2022

V-Doc : Visual questions answers with Documents
Yihao Ding, Zhe Huang, Runlin Wang, Yanhang Zhang, Xianru Chen, Yuzhong Ma, Hyunsuk Chung, Soyeon Caren Han
Question Generation Document Relevance Extractive Question Abstractive Question Answering Visual Question Answer