Question Driven Image Caption

Question-driven image captioning focuses on generating image descriptions tailored to specific questions, enhancing visual question answering (VQA) systems. Current research emphasizes using these captions as prompts for large language models (LLMs), improving performance, particularly in zero-shot VQA scenarios, by leveraging the LLMs' reasoning capabilities. This approach, often involving decomposing complex questions into simpler ones, shows promise in addressing limitations of existing VQA models, particularly for multi-hop reasoning and knowledge-based questions, leading to more accurate and robust question answering systems. The resulting improvements have significant implications for various applications requiring visual understanding and complex reasoning, such as robotics and information retrieval.

Papers

June 27, 2024

Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA
Elham J. Barezi, Parisa Kordjamshidi
Visual Reasoning Visual Question Knowledge Based Visual Question Answering Question Decomposition VQA Datasets Question Driven Image Caption

April 12, 2024

Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts
Övgü Özdemir, Erdem Akagündüz
Visual Question Answering Complex Prompt Visual Question Zero Shot Visual Question Answering Question Driven Image Caption

February 16, 2024

Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering
David Romero, Thamar Solorio
Multiple Choice VideoQA Video Question VideoQA Model Zero Shot Visual Question Answering VideoQA Benchmark Question Driven Image Caption

February 4, 2024

GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering
Ziyu Ma, Shutao Li, Bin Sun, Jianfei Cai, Zuxiang Long, Fuyan Ma
Implicit Knowledge Knowledge Based Visual Question Answering Knowledge Based Visual Question Question Driven Image Caption

Question Driven Image Caption

Papers

Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA

Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts

Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering

GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering