Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

March 6, 2024

Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning
Deepanway Ghosal, Vernon Toh Yan Han, Chia Yew Ken, Soujanya Poria
Language Model Visual Question Answering Multimodal Reasoning Puzzle Solving Modal Clue Algorithmic Problem Solving Skill

March 4, 2024

Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review
Iryna Hartsock, Ghulam Rasool
Vision Language Model Narrative Review Visual Question Answering Medical Report Generation Multimodal Medical Data

February 27, 2024

ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks
Yang Liu, Xiaomin Yu, Gongyu Zhang, Zhen Zhu, Christos Bergeles, Prokar Dasgupta, Alejandro Granados, Sebastien Ourselin
Visual Question Answering Adaptive Importance Image Captioning Industrial Disturbing Noise Cosine Similarity Modality Gap Visual Entailment

February 26, 2024

CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document Visual Question Answering
Jinxu Zhang, Yongqi Yu, Yu Zhang
Visual Question Answering Online Conversation Automatic Tuning

February 22, 2024

February 16, 2024

February 14, 2024

Pretraining Vision-Language Model for Difference Visual Question Answering in Longitudinal Chest X-rays
Yeongjae Cho, Taehee Kim, Heejun Shin, Sungzoon Cho, Dongmyung Shin
Vision Language Model Visual Question Answering VQA System

February 13, 2024

February 12, 2024

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models
Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
Language Model Language Generation Visual Question Answering Visual Representation Design Space Visual Dialog Instruct Tuned Model

February 11, 2024

Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy
Simon Ging, María A. Bravo, Thomas Brox
Vision Language Model Vision Language Visual Question Answering Generative Vision Language Model Classification Datasets Semantic Hierarchy

February 8, 2024

February 6, 2024

Convincing Rationales for Visual Question Answering Reasoning
Kun Li, George Vosselman, Michael Ying Yang
Visual Question Answering Convincing Explanation

February 1, 2024

Instruction Makes a Difference
Tosin Adewumi, Nudrat Habib, Lama Alkhaled, Elisa Barney
Visual Question Answering Human Instruction Instruction Following Qualitative Difference

January 29, 2024

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo, Xinze Guan, Xin Eric Wang
Multimodal Large Language Model Visual Question Answering Image Understanding

January 28, 2024

Improving Data Augmentation for Robust Visual Question Answering with Effective Curriculum Learning
Yuhang Zheng, Zhen Wang, Long Chen
Data Augmentation Visual Question Answering Curriculum Learning Visual Question

Visual Question Answering

Papers

Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning

Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review

ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks

CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document Visual Question Answering

CommVQA: Situating Visual Question Answering in Communicative Contexts

Uncertainty-Aware Evaluation for Vision-Language Models

VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models

II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering

Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models

Pretraining Vision-Language Model for Difference Visual Question Answering in Longitudinal Chest X-rays

Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks

Visually Dehallucinative Instruction Generation

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy

Examining Gender and Racial Bias in Large Vision-Language Models Using a Novel Dataset of Parallel Images

CIC: A Framework for Culturally-Aware Image Captioning

Convincing Rationales for Visual Question Answering Reasoning

Instruction Makes a Difference

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA

Improving Data Augmentation for Robust Visual Question Answering with Effective Curriculum Learning