Visual Question

Visual Question Answering (VQA) aims to develop systems that can accurately answer natural language questions about the content of images or videos. Current research focuses on improving model robustness and accuracy, particularly for complex questions requiring spatial reasoning, multi-modal fusion (combining visual and textual information), and handling diverse question types, often employing large language models (LLMs) and vision transformers (ViTs) within various architectures. The field's significance lies in its potential for applications ranging from assisting visually impaired individuals to enhancing medical diagnosis and autonomous driving, driving advancements in multimodal learning and reasoning.

Papers

November 26, 2023

Comparative Analysis of ChatGPT, GPT-4, and Microsoft Bing Chatbots for GRE Test
Mohammad Abu-Haifa, Bara'a Etawi, Huthaifa Alkhatatbeh, Ayman Ababneh
ChatGPT Generated Conversation Comparative Study Chatbot Response GPT 4 Visual Question AI Chatbots

October 27, 2023

ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese
Khiem Vinh Tran, Hao Phu Phan, Kiet Van Nguyen, Ngan Luu Thuy Nguyen
Visual Question Answering Visual Reasoning Visual Question Indonesian Language Visual Reasoning Capability

October 24, 2023

Towards Perceiving Small Visual Details in Zero-shot Visual Question Answering with Multimodal LLMs
Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
Multimodal Large Language Model Visual Question Answering Multimodal LLM Visual Question

October 13, 2023

Enhancing BERT-Based Visual Question Answering through Keyword-Driven Sentence Selection
Davide Napolitano, Lorenzo Vaiani, Luca Cagliero
BERT Model Sentence Level Visual Question Text to Text Masked Language Modeling Knowledge Based Visual Question

October 9, 2023

Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models
Holy Lovenia, Wenliang Dai, Samuel Cahyawijaya, Ziwei Ji, Pascale Fung
Vision Language Model Visual Question Answering Visual Question Negation Detection Object Hallucination

September 28, 2023

Toloka Visual Question Answering Benchmark
Dmitry Ustalov, Nikita Pavlichenko, Sergey Koshelev, Daniil Likhobaba, Alisa Smirnova
Visual Question Image Question Pair Zero Shot Baseline

September 20, 2023

Visual Question Answering in the Medical Domain
Louisa Canepa, Sonit Singh, Arcot Sowmya
Medical Image Domain Specific Visual Reasoning Visual Question Medical Domain VQA Task Medical VQA

August 21, 2023

VQA Therapy: Exploring Answer Differences by Visually Grounding Answers
Chongyan Chen, Samreen Anjum, Danna Gurari
Visual Grounding Visual Question Qualitative Difference Multiple Plausible Answer Medical VQA

August 19, 2023

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions
Wenbo Hu, Yifan Xu, Yi Li, Weiyue Li, Zeyuan Chen, Zhuowen Tu
Vision Language Model Multimodal Large Language Model Visual Question Open Ended Visual Question Answering

August 17, 2023

Bridging High-Quality Audio and Video via Language for Sound Effects Retrieval from Visual Queries
Julia Wilkins, Justin Salamon, Magdalena Fuentes, Juan Pablo Bello, Oriol Nieto
Training Data Human Language Audio Visual Source Video Visual Question High Fidelity Audio Audio Visual Retrieval Audio Retrieval Video Pair

August 16, 2023

Learning the meanings of function words from grounded language using a visual question answering model
Eva Portelance, Michael C. Frank, Dan Jurafsky
Full Model Human Language Visual Question Multiple Meaning Numerical Reasoning Relational Reasoning Discourse Connective Visual Question Answering Model Gradient Based Explanation

August 3, 2023

RealCQA: Scientific Chart Question Answering as a Test-bed for First-Order Logic
Saleem Ahmed, Bhavin Jawade, Shubham Pandey, Srirangaraj Setlur, Venu Govindaraju
Visual Question Answering Visual Question First Order Logic Chart Question Answering Chart Generation

July 17, 2023

PAT: Parallel Attention Transformer for Visual Question Answering in Vietnamese
Nghia Hieu Nguyen, Kiet Van Nguyen
Multimodal Learning Visual Question Indonesian Language Linguistic Data Parallel Attention

July 11, 2023

CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery
Long Bai, Mobarakol Islam, Hongliang Ren
Vision Language Visual Question Answering Visual Question Robotic Surgery Surgical Video Surgical Scene Understanding Surgical Visual Question Answering

July 6, 2023

Read, Look or Listen? What's Needed for Solving a Multimodal Dataset
Netta Madvil, Yonatan Bitton, Roy Schwartz
Multi Modal Multimodal Dataset Visual Question Read V Single Modality Multimodal Datasets

June 25, 2023

Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck
Jayesh Songara, Shivam Pande, Shabnam Choudhury, Biplab Banerjee, Rajbabu Velmurugan
Visual Question Answering Remote Sensing Cross Attention Information Bottleneck Visual Question CNN LSTM Representation Bottleneck

June 15, 2023

Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories
Thomas Mensink, Jasper Uijlings, Lluis Castrejon, Arushi Goel, Felipe Cadar, Howard Zhou, Fei Sha, André Araujo, Vittorio Ferrari
Large Vision Language Model Visual Question Answering Retrieval Augmented Visual Question Many Property Fine Grained Category

June 13, 2023

AVIS: Autonomous Visual Information Seeking with Large Language Model Agent
Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi
Large Language Model Autonomous System Visual Question Knowledge Based Visual Question

June 11, 2023

Weakly Supervised Visual Question Answer Generation
Charani Alampalle, Shamanthak Hegde, Soumya Jahagirdar, Shankar Gangisetty
Question Answer Pair Visual Question QA Datasets Visual Question Generation VQA Dataset

May 7, 2023

OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese
Nghia Hieu Nguyen, Duong T. D. Vo, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
Data Set Visual Question Answering Visual Question Indonesian Language Multimodal Fusion Model Visual Question Answering Model Vietnamese Image Captioning

Visual Question

Papers

Comparative Analysis of ChatGPT, GPT-4, and Microsoft Bing Chatbots for GRE Test

ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese

Towards Perceiving Small Visual Details in Zero-shot Visual Question Answering with Multimodal LLMs

Enhancing BERT-Based Visual Question Answering through Keyword-Driven Sentence Selection

Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models

Toloka Visual Question Answering Benchmark

Visual Question Answering in the Medical Domain

VQA Therapy: Exploring Answer Differences by Visually Grounding Answers

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

Bridging High-Quality Audio and Video via Language for Sound Effects Retrieval from Visual Queries

Learning the meanings of function words from grounded language using a visual question answering model

RealCQA: Scientific Chart Question Answering as a Test-bed for First-Order Logic

PAT: Parallel Attention Transformer for Visual Question Answering in Vietnamese

CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

Read, Look or Listen? What's Needed for Solving a Multimodal Dataset

Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck

Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories

AVIS: Autonomous Visual Information Seeking with Large Language Model Agent

Weakly Supervised Visual Question Answer Generation

OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese