Visual Reasoning

Visual reasoning aims to enable artificial intelligence systems to understand and reason using visual information, mirroring human cognitive abilities. Current research focuses on developing and evaluating large vision-language models (VLMs) and multimodal large language models (MLLMs), often employing transformer architectures and techniques like chain-of-thought prompting and active perception, to improve performance on various visual reasoning tasks such as visual question answering and object manipulation. These advancements are significant because they address limitations in existing AI systems and hold potential for applications in robotics, medical image analysis, and other fields requiring complex visual interpretation and decision-making.

Papers

May 9, 2022

Multilevel Hierarchical Network with Multiscale Sampling for Video Question Answering
Min Peng, Chongyang Wang, Yuan Gao, Yu Shi, Xiang-Dong Zhou
Visual Reasoning Video Question Answering Multiple Choice VideoQA Hierarchical Network Question Representation

May 6, 2022

QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary Visual Reasoning
Zechen Li, Anders Søgaard
Synthetic Data Visual Question Answering Visual Reasoning Visual Question Answering Model Existential Quantifier Diagnostic Dataset Visual Reasoning Ability

April 24, 2022

RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning
Xiaojian Ma, Weili Nie, Zhiding Yu, Huaizu Jiang, Chaowei Xiao, Yuke Zhu, Song-Chun Zhu, Anima Anandkumar
Vision Transformer Visual Reasoning Visual Relation Depth Aware Transformer

April 5, 2022

CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations
Leonard Salewski, A. Sophia Koepke, Hendrik P. A. Lensch, Zeynep Akata
Visual Question Answering Visual Reasoning Natural Language Explanation Structured Explanation CLEVR X Dataset

April 2, 2022

Co-VQA : Answering by Interactive Sub Question Sequence
Ruonan Wang, Yuxi Qian, Fangxiang Feng, Xiaojie Wang, Huixing Jiang
Visual Question Answering Visual Reasoning

March 11, 2022

REX: Reasoning-aware and Grounded Explanation
Shi Chen, Qi Zhao
Inherent Interpretability Visual Reasoning Reasoning Performance Visual Language Exponential Mechanism Grounded Theory Multi Modal Explanation

February 26, 2022

Analysis of Visual Reasoning on One-Stage Object Detection
Tolga Aksoy, Ugur Halici
General Analysis Visual Reasoning Look Once Version 8 Convolutional Feature Stage Object Detection

February 25, 2022

Joint Answering and Explanation for Visual Commonsense Reasoning
Zhenyang Li, Yangyang Guo, Kejie Wang, Yinwei Wei, Liqiang Nie, Mohan Kankanhalli
Question Answering Line by Line Explanation Visual Question Answering Visual Reasoning Visual Understanding Visual Commonsense Reasoning Joint Reasoning

February 24, 2022

Measuring CLEVRness: Blackbox testing of Visual Reasoning Models
Spyridon Mouselinos, Henryk Michalewski, Mateusz Malinowski
Complex Reasoning Reasoning Capability Visual Reasoning Adversarial Game Box Testing Diagnostic Reasoning Benchmark

February 10, 2022

The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning
Jack Hessel, Jena D. Hwang, Jae Sung Park, Rowan Zellers, Chandra Bhagavatula, Anna Rohrbach, Kate Saenko, Yejin Choi
Data Set Visual Reasoning Abductive Reasoning Contrastive Meta Abduction Method

December 31, 2021

Deconfounded Visual Grounding
Jianqiang Huang, Yu Qin, Jiaxin Qi, Qianru Sun, Hanwang Zhang
Visual Grounding Visual Reasoning Semantic Association

December 9, 2021

PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning
Yining Hong, Li Yi, Joshua B. Tenenbaum, Antonio Torralba, Chuang Gan
New Benchmark Visual Reasoning Reasoning Benchmark Physical Reasoning Relation Information Part Based

November 29, 2021

November 24, 2021

Two-stage Rule-induction Visual Reasoning on RPMs with an Application to Video Prediction
Wentao He, Jianfeng Ren, Ruibin Bai, Xudong Jiang
Application Proficiency Reasoning Task Visual Reasoning Video Prediction Progressive Matrix Reasoning Module Visual Reasoning Ability