Visual Question Answering

May 24, 2024

Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement
Xiyao Wang, Jiuhai Chen, Zhaoyang Wang, Yuhang Zhou, Yiyang Zhou, Huaxiu Yao, Tianyi Zhou, Tom Goldstein, Parminder Bhatia, Furong Huang, Cao Xiao
Large Vision Language Model Visual Question Answering Image Understanding Modality Alignment Self Improvement

May 23, 2024

LOVA3: Learning to Visual Question Answering, Asking and Assessment
Henry Hengyuan Zhao, Pan Zhou, Difei Gao, Zechen Bai, Mike Zheng Shou
LeArning Abstract Multimodal Large Language Model Question Answering Visual Question Answering Direct Assessment Multimodal Benchmark Multimodal Comprehension
UDKAG: Augmenting Large Vision-Language Models with Up-to-Date Knowledge
Chuanhao Li, Zhen Li, Chenchen Jing, Shuo Liu, Wenqi Shao, Yuwei Wu, Ping Luo, Yu Qiao, Kaipeng Zhang
Large Vision Language Model Visual Question Answering Knowledge Enhancement

May 22, 2024

PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery
Runlong He, Mengya Xu, Adrito Das, Danyal Z. Khan, Sophia Bano, Hani J. Marcus, Danail Stoyanov, Matthew J. Clarkson, Mobarakol Islam
Medical LLM Text Modality Visual Question Answering Visual Question Skull Base Surgery Surgical Visual Question Answering

May 21, 2024

Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering
Hiba Maryam, Ling Fu, Jiajun Song, Tajrian ABM Shafayet, Qidi Luo, Xiang Bai, Yuliang Liu
Data Set New Benchmark Visual Question Answering Recognition Rate Urdu Text

May 20, 2024

MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering
Jingqun Tang, Qi Liu, Yongjie Ye, Jinghui Lu, Shu Wei, Chunhui Lin, Wanqing Li, Mohamad Fitri Faiz Bin Mahmood, Hao Feng, Zhen Zhao, Yanjie Wang, Yuliang Liu, Hao Liu, Xiang Bai, Can Huang
Visual Question Answering VQA Datasets Multilingual Machine Reading Comprehension

May 16, 2024

Chameleon: Mixed-Modal Early-Fusion Foundation Models
Chameleon Team
Visual Question Answering Multi Modal Model Pace Adaptive Multimodal Design Document

May 12, 2024

Realizing Visual Question Answering for Education: GPT-4V as a Multimodal AI
Gyeong-Geon Lee, Xiaoming Zhai
Visual Question Answering GPT 4 Image Processing Visual Language Model Education Domain Visual Question Multimodal AI

May 10, 2024

Federated Document Visual Question Answering: A Pilot Study
Khanh Nguyen, Dimosthenis Karatzas
Visual Question Answering Pilot Study

May 8, 2024

S-EQA: Tackling Situational Queries in Embodied Question Answering
Vishnu Sashank Dorbala, Prasoon Goyal, Robinson Piramuthu, Michael Johnston, Reza Ghanadhan, Dinesh Manocha
Visual Question Answering Situation Understanding Embodied Question Answering

May 6, 2024

VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images
Anna Penzkofer, Lei Shi, Andreas Bulling
Visual Question Answering Pre Trained Vision Language Model Natural Image Visual Question Vector Symbolic Architecture Zero Shot Visual Question Answering Query Driven Mask Transformer

May 1, 2024

Enhanced Textual Feature Extraction for Visual Question Answering: A Simple Convolutional Approach
Zhilin Zhang
Comparative Study Visual Question Answering Feature Extraction Text Encoder Textual Model

April 29, 2024

April 24, 2024

Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering
Cuong Nhat Ha, Shima Asaadi, Sanjeev Kumar Karn, Oladimeji Farri, Tobias Heimann, Thomas Runkler
Language Model Vision Language Model Visual Question Answering Hybrid Fusion Medical Visual Question Answering

April 21, 2024

Exploring Diverse Methods in Visual Question Answering
Panfeng Li, Qikai Yang, Xieming Geng, Wenjing Zhou, Zhicheng Ding, Yi Nian
Generative Adversarial Network Visual Question Answering Practical Method Answer Cross Embeddings

April 19, 2024

PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering
Yihao Ding, Kaixuan Ren, Jiabin Huang, Siwen Luo, Soyeon Caren Han
Data Set Visual Question Answering Visually Rich Document Multimodal Retrieval VQA Datasets Page Level Document Question Answering

April 16, 2024

April 15, 2024

HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision
Siddhant Bansal, Michael Wray, Dima Damen
Large Vision Language Model Visual Question Answering Hand Object Interaction Egocentric Vision HOI Ref HOI M3 Dataset

Papers

Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

LOVA3: Learning to Visual Question Answering, Asking and Assessment

UDKAG: Augmenting Large Vision-Language Models with Up-to-Date Knowledge

PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery

Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering

MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Realizing Visual Question Answering for Education: GPT-4V as a Multimodal AI

Federated Document Visual Question Answering: A Pilot Study

S-EQA: Tackling Situational Queries in Embodied Question Answering

VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images

Enhanced Textual Feature Extraction for Visual Question Answering: A Simple Convolutional Approach

Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism

ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images

Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering

Exploring Diverse Methods in Visual Question Answering

PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering

ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images

Find The Gap: Knowledge Base Reasoning For Visual Question Answering

HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision