Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

July 5, 2024

Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge
Xiangyu Wu, Zhouyang Chi, Yang Yang, Jianfeng Lu
Vision Language Visual Question Answering Visual Grounding Place Solution Multimodal Pre

July 4, 2024

Black-box Model Ensembling for Textual and Visual Question Answering via Information Fusion
Yuxi Xia, Kilm Zaporojets, Benjamin Roth
Large Language Model Language Model Visual Question Answering Ensemble Learning Black Box Model Task Specific Visual Question

July 3, 2024

Visual Robustness Benchmark for Visual Question Answering (VQA)
Md Farhan Ishmam, Ishmam Tashdeed, Talukder Asir Saadat, Md Hamjajul Ashmafee, Abu Raihan Mostofa Kamal, Md. Azam Hossain
Language Model Visual Question Answering Robustness Benchmark

June 27, 2024

The Illusion of Competence: Evaluating the Effect of Explanations on Users' Mental Models of Visual Question Answering Systems
Judith Sieker, Simeon Junker, Ronja Utescher, Nazia Attari, Heiko Wersing, Hendrik Buschmeier, Sina Zarrieß
Line by Line Explanation Visual Question Answering Artificial Intelligence System Visual Input Optical Illusion Mental Model Competency Assessment

June 20, 2024

Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?
Gregor Geigle, Radu Timofte, Goran Glavaš
Large Vision Language Model Visual Question Answering Content Hallucination Object Grounding LLM Hallucination Object Hallucination

June 19, 2024

LIVE: Learnable In-Context Vector for Visual Question Answering
Yingzhe Peng, Chenduo Hao, Xu Yang, Jiawei Peng, Xinting Hu, Xin Geng
Language Model Context Learning Visual Question Answering Large Multimodal Model Learned Function Context Vector

June 17, 2024

MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model
Jiahao Huo, Yibo Yan, Boren Hu, Yutao Yue, Xuming Hu
Language Model Multimodal Large Language Model Visual Question Answering Domain Specific Neuron Level

June 14, 2024

June 13, 2024

June 10, 2024

June 5, 2024

Wings: Learning Multimodal LLMs without Text-only Forgetting
Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
Multimodal Large Language Model Visual Question Answering Multimodal LLM Multimodal Input Multimodal Comprehension MLLM Attention Dual Purpose WING Text Removal

June 4, 2024

June 3, 2024

Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering
Tao Li, Linjun Shou, Xuejun Liu
Visual Question Answering Mixture Component Rationale Alignment Multi Modal Reasoning Frozen Vision Language

May 29, 2024

Visual Question Answering

Papers

Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge

Black-box Model Ensembling for Textual and Visual Question Answering via Information Fusion

Visual Robustness Benchmark for Visual Question Answering (VQA)

The Illusion of Competence: Evaluating the Effect of Explanations on Users' Mental Models of Visual Question Answering Systems

Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?

LIVE: Learnable In-Context Vector for Visual Question Answering

MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model

Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models

Vision-Language Models Meet Meteorology: Developing Models for Extreme Weather Events Detection with Heatmaps

Yo'LLaVA: Your Personalized Language and Vision Assistant

Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns

VCR: Visual Caption Restoration

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark

Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024

Wings: Learning Multimodal LLMs without Text-only Forgetting

Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following

Translation Deserves Better: Analyzing Translation Artifacts in Cross-lingual Visual Question Answering

Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering

Evaluating Zero-Shot GPT-4V Performance on 3D Visual Question Answering Benchmarks

Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs