Visual Question Answering

Visual Question Answering (VQA) aims to enable computers to answer questions about images, requiring sophisticated integration of visual and linguistic understanding. Current research emphasizes improving model robustness and reliability, focusing on addressing issues like inconsistencies in responses, hallucinations, and the handling of unanswerable questions, often using large multimodal language models (MLLMs) like BLIP-2 and LLaVA. This field is crucial for advancing AI's ability to interact with the world in a more human-like way, with applications ranging from assistive technologies for visually impaired individuals to medical image analysis and automated data visualization evaluation.

Papers

May 5, 2022

Declaration-based Prompt Tuning for Visual Question Answering
Yuhang Liu, Wei Wei, Daowan Peng, Feida Zhu
Vision Language Visual Question Answering Prompt Tuning Finetune Paradigm

May 4, 2022

All You May Need for VQA are Image Captions
Soravit Changpinyo, Doron Kukliansky, Idan Szpektor, Xi Chen, Nan Ding, Radu Soricut
Visual Question Answering Question Generation Image Caption

May 2, 2022

Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering
AJ Piergiovanni, Wei Li, Weicheng Kuo, Mohammad Saffar, Fred Bertsch, Anelia Angelova
Vision Language Visual Question Answering Mixture Training Zero Shot Vision Language Open Ended Visual Question Answering

April 29, 2022

Flamingo: a Visual Language Model for Few-Shot Learning
Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan
LeArning Abstract Visual Question Answering Visual Language Model Language Specific Multimodal Machine

April 28, 2022

Reliable Visual Question Answering: Abstain Rather Than Answer Incorrectly
Spencer Whitehead, Suzanne Petryk, Vedaad Shakib, Joseph Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
Visual Question Answering Top Two Answer

April 17, 2022

Attention Mechanism based Cognition-level Scene Understanding
Xuejiao Tang, Tai Le Quy, Eirini Ntoutsi, Kea Turner, Vasile Palade, Israat Haque, Peng Xu, Chris Brown, Wenbin Zhang
Attention Mechanism Visual Question Answering Scene Understanding Visual Commonsense Reasoning

April 5, 2022

April 3, 2022

Question-Driven Graph Fusion Network For Visual Question Answering
Yuxi Qian, Yuncong Hu, Ruonan Wang, Fangxiang Feng, Xiaojie Wang
Visual Question Answering Graph Attention Network Visual Relation

April 2, 2022

Co-VQA : Answering by Interactive Sub Question Sequence
Ruonan Wang, Yuxi Qian, Fangxiang Feng, Xiaojie Wang, Huixing Jiang
Visual Question Answering Visual Reasoning

March 31, 2022

SimVQA: Exploring Simulated Environments for Visual Question Answering
Paola Cascante-Bonilla, Hui Wu, Letao Wang, Rogerio Feris, Vicente Ordonez
Synthetic Data Visual Question Answering Simulation Environment VQA Benchmark VQA Dataset

March 24, 2022

March 15, 2022

Can you even tell left from right? Presenting a new challenge for VQA
Sai Raam Venkatraman, Rishi Rao, S. Balasubramanian, Chandra Sekhar Vorugunti, R. Raghunatha Sarma
Visual Question Answering Generalization Performance Compositional Generalization Open Challenge

March 7, 2022

Barlow constrained optimization for Visual Question Answering
Abhishek Jha, Badri N. Patro, Luc Van Gool, Tinne Tuytelaars
Optimization Purpose Visual Question Answering Multi Modal Task

March 6, 2022

February 25, 2022

Joint Answering and Explanation for Visual Commonsense Reasoning
Zhenyang Li, Yangyang Guo, Kejie Wang, Yinwei Wei, Liqiang Nie, Mohan Kankanhalli
Question Answering Line by Line Explanation Visual Question Answering Visual Reasoning Visual Understanding Visual Commonsense Reasoning Joint Reasoning

February 15, 2022

Delving Deeper into Cross-lingual Visual Question Answering
Chen Liu, Jonas Pfeiffer, Anna Korhonen, Ivan Vulić, Iryna Gurevych
Visual Question Answering 3d Vqa Multi Modal Transformer Deep Depth Ok Vqa

February 14, 2022

An experimental study of the vision-bottleneck in VQA
Pierre Marza, Corentin Kervadec, Grigory Antipov, Moez Baccouche, Christian Wolf
Visual Question Answering Object Detector Experimental Study Visual Object