VQA Dataset

Visual Question Answering (VQA) datasets are crucial for training and evaluating AI models that can understand and reason about images and text. Current research emphasizes creating larger, higher-quality datasets with diverse question types and realistic scenarios, including those requiring external knowledge or addressing the challenges of unanswerable questions. This involves developing novel data generation techniques and exploring model architectures that effectively integrate visual and textual information, often leveraging large language and vision models. Improved VQA datasets and models have significant implications for various applications, including image retrieval, assistive technologies, and enhancing human-computer interaction.

Papers

November 26, 2024

Path-RAG: Knowledge-Guided Key Region Retrieval for Open-ended Pathology Visual Question Answering
Awais Naeem, Tianhao Li, Huang-Ru Liao, Jiawei Xu, Aby M. Mathew, Zehao Zhu, Zhen Tan, Ajay Kumar Jaiswal, Raffi A. Salibian, Ziniu Hu, Tianlong Chen, Ying Ding
Visual Question Answering Pathology Image Kg Rag VQA Dataset Medical VQA Pathology Specific

November 7, 2024

M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
Jaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal
Multi Modal VQA Dataset

May 28, 2024

Why are Visually-Grounded Language Models Bad at Image Classification?
Yuhui Zhang, Alyssa Unell, Xiaohan Wang, Dhruba Ghosh, Yuchang Su, Ludwig Schmidt, Serena Yeung-Levy
Image Classification Supervised ImageNet VQA Dataset Visually Grounded

April 19, 2024

TextSquare: Scaling up Text-Centric Visual Instruction Tuning
Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
MLLM Training Text Benchmark Hallucination Dataset VQA Dataset

February 11, 2024

KVQ: Kwai Video Quality Assessment for Short-form Videos
Yiting Lu, Xin Li, Yajing Pei, Kun Yuan, Qizhi Xie, Yunpeng Qu, Ming Sun, Chao Zhou, Zhibo Chen
Video Quality Assessment User Generated Content Key Value Short Form Video VQA Dataset

October 20, 2023

A Simple Baseline for Knowledge-Based Visual Question Answering
Alexandros Xenos, Themos Stafylakis, Ioannis Patras, Georgios Tzimiropoulos
Knowledge Based Visual Question Answering VQA Dataset Efficient in Context Learning Ok Vqa

September 29, 2023

Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering
Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne
Fine Grained Knowledge Retrieval Knowledge Based Visual Question Answering VQA Dataset

August 31, 2023

Separate and Locate: Rethink the Text in Text-based Visual Question Answering
Chengyang Fang, Jiangnan Li, Liang Li, Can Ma, Dayong Hu
Text Modality Visual Question Answering VQA Task VQA Dataset Locate Anything OCR Information

August 1, 2023

Making the V in Text-VQA Matter
Shamanthak Hegde, Soumya Jahagirdar, Shankar Gangisetty
VQA Task VQA Dataset Page Document VQA Text VQA

June 11, 2023

Weakly Supervised Visual Question Answer Generation
Charani Alampalle, Shamanthak Hegde, Soumya Jahagirdar, Shankar Gangisetty
Question Answer Pair Visual Question QA Datasets Visual Question Generation VQA Dataset

March 9, 2023

Toward Unsupervised Realistic Visual Question Answering
Yuwei Zhang, Chih-Hui Ho, Nuno Vasconcelos
VQA System VQA Dataset

August 24, 2022

Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA Task
Stan Weixian Lei, Difei Gao, Jay Zhangjie Wu, Yuxuan Wang, Wei Liu, Mengmi Zhang, Mike Zheng Shou
Continual LEArning Visual Question Answering Scene Graph Style PROMPT VQA System VQA Task VQA Dataset Symbolic Execution

August 5, 2022

ChiQA: A Large Scale Image-based Real-World Question Answering Dataset for Multi-Modal Understanding
Bingning Wang, Feiyang Lv, Ting Yao, Yiming Yuan, Jin Ma, Yu Luo, Haijin Liang
Data Set Large Scale Visual Language Model Image Caption Multi Modal Understanding VQA Dataset Image Question Pair

July 27, 2022

Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base
Jinyeong Chae, Jihie Kim
Visual Question Answering Knowledge Base Image Caption Semantic Consistency Knowledge Based Visual Question VQA Dataset

June 2, 2022

REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering
Yuanze Lin, Yujia Xie, Dongdong Chen, Yichong Xu, Chenguang Zhu, Lu Yuan
Knowledge Based Visual Question Answering Knowledge Based Visual Question VQA Dataset Knowledge Based VQA

March 31, 2022

SimVQA: Exploring Simulated Environments for Visual Question Answering
Paola Cascante-Bonilla, Hui Wu, Letao Wang, Rogerio Feris, Vicente Ordonez
Synthetic Data Visual Question Answering Simulation Environment VQA Dataset VQA Benchmark