Visual Question Answering

May 23, 2023

Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach
Harman Singh, Poorva Garg, Mohit Gupta, Kevin Shah, Ashish Goswami, Satyam Modi, Arnab Kumar Mondal, Dinesh Khandelwal, Dinesh Garg, Parag Singla
Complex Reasoning Visual Question Answering Image Editing Multi Hop Neuro Symbolic Learning
DUBLIN -- Document Understanding By Language-Image Network
Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Hardik Hansrajbhai Chauhan, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary
Visual Question Answering Document Understanding Question Answering Task Document Classification Language Image

May 19, 2023

May 18, 2023

Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature
Ana Cláudia Akemi Matsuki de Faria, Felype de Castro Bastos, José Victor Nogueira Alves da Silva, Vitor Lopes Fabris, Valeska de Sousa Uchoa, Décio Gonçalves de Aguiar Neto, Claudio Filipi Goncalves dos Santos
Natural Language Processing Timely Survey Visual Question Answering Barzilai Borwein Technique Recent Trend Read V Image Prediction

May 17, 2023

May 7, 2023

OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese
Nghia Hieu Nguyen, Duong T. D. Vo, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
Data Set Visual Question Answering Visual Question Indonesian Language Multimodal Fusion Model Visual Question Answering Model Vietnamese Image Captioning

May 4, 2023

Analysis of Visual Question Answering Algorithms with attention model
Param Ahir, Hiteishi M. Diwanji
General Analysis Visual Question Answering Computer Vision Technique

April 19, 2023

SurgicalGPT: End-to-End Language-Vision GPT for Visual Question Answering in Surgery
Lalithkumar Seenivasan, Mobarakol Islam, Gokul Kannan, Hongliang Ren
Visual Question Answering Visual Question Open Surgery

April 17, 2023

VCD: Visual Causality Discovery for Cross-Modal Question Reasoning
Yang Liu, Ying Tan, Jingzhou Luo, Weixing Chen
Visual Question Answering Cross Modal Reasoning Visual Causality Discovery Visual Causal

April 16, 2023

Chain of Thought Prompt Tuning in Vision Language Models
Jiaxin Ge, Hongyin Luo, Siyuan Qian, Yulu Gan, Jie Fu, Shanghang Zhang
Vision Language Model Vision Language Visual Question Answering Chain of Thought Side Chain Reasoning Process Thought Prompting

April 13, 2023

PDFVQA: A New Dataset for Real-World VQA on PDF Documents
Yihao Ding, Siwen Luo, Hyunsuk Chung, Soyeon Caren Han
Visual Question Answering Document Understanding PDF Document VQA Datasets Ok Vqa

April 6, 2023

Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions
Jia-Hong Huang, Modar Alfadly, Bernard Ghanem, Marcel Worring
Context Learning Visual Question Answering Side Chain QA Datasets Robustness Analysis Visual Question Answering Model

April 4, 2023

SC-ML: Self-supervised Counterfactual Metric Learning for Debiased Visual Question Answering
Xinyao Shu, Shiyang Yan, Xu Yang, Ziheng Wu, Zhongfeng Chen, Zhenyu Lu
Visual Question Answering Visual Question Corpus Bias Counterfactual Metric

April 2, 2023

Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space
Yuwei Sun, Hideya Ochiai, Jun Sakuma
Visual Question Answering Adversarial Learning Trojan Attack Activation Space

March 27, 2023

Curriculum Learning for Compositional Visual Reasoning
Wafa Aissa, Marin Ferecatu, Michel Crucianu
Visual Question Answering Curriculum Learning Modal Embeddings Neural Module Compositional Visual Reasoning

March 22, 2023

Integrating Image Features with Convolutional Sequence-to-sequence Network for Multilingual Visual Question Answering
Triet Minh Thai, Son T. Luu
Visual Question Answering

March 16, 2023

Logical Implications for Visual Question Answering Consistency
Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman
Visual Question Answering Consistency Loss

March 13, 2023

Polar-VQA: Visual Question Answering on Remote Sensed Ice sheet Imagery from Polar Region
Argho Sarkar, Maryam Rahnemoonfar
Visual Question Answering Visual Question POLAR Keywords

Papers

Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach

DUBLIN -- Document Understanding By Language-Image Network

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner

Surgical-VQLA: Transformer with Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature

An Empirical Study on the Language Modal in Visual Question Answering

Probing the Role of Positional Information in Vision-Language Models

OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese

Analysis of Visual Question Answering Algorithms with attention model

SurgicalGPT: End-to-End Language-Vision GPT for Visual Question Answering in Surgery

VCD: Visual Causality Discovery for Cross-Modal Question Reasoning

Chain of Thought Prompt Tuning in Vision Language Models

PDFVQA: A New Dataset for Real-World VQA on PDF Documents

Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions

SC-ML: Self-supervised Counterfactual Metric Learning for Debiased Visual Question Answering

Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space

Curriculum Learning for Compositional Visual Reasoning

Integrating Image Features with Convolutional Sequence-to-sequence Network for Multilingual Visual Question Answering

Logical Implications for Visual Question Answering Consistency

Polar-VQA: Visual Question Answering on Remote Sensed Ice sheet Imagery from Polar Region