Visual Reasoning

Visual reasoning aims to enable artificial intelligence systems to understand and reason using visual information, mirroring human cognitive abilities. Current research focuses on developing and evaluating large vision-language models (VLMs) and multimodal large language models (MLLMs), often employing transformer architectures and techniques like chain-of-thought prompting and active perception, to improve performance on various visual reasoning tasks such as visual question answering and object manipulation. These advancements are significant because they address limitations in existing AI systems and hold potential for applications in robotics, medical image analysis, and other fields requiring complex visual interpretation and decision-making.

Papers

April 9, 2024

Wu's Method can Boost Symbolic AI to Rival Silver Medalists and AlphaGeometry to Outperform Gold Medalists at IMO Geometry
Shiven Sinha, Ameya Prabhu, Ponnurangam Kumaraguru, Siddharth Bhat, Matthias Bethge
Visual Reasoning Theorem Proving Symbolic AI Geometric Theory Mathematical Olympiad

March 28, 2024

Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
Jiaxing Chen, Yuxuan Liu, Dehu Li, Xiang An, Weimo Deng, Ziyong Feng, Yongle Zhao, Yin Xie
Complex Reasoning Multimodal Large Language Model Reasoning Capability Visual Reasoning Grounding Network Multimodal Prompting

March 27, 2024

Beyond Embeddings: The Promise of Visual Table in Visual Reasoning
Yiwu Zhong, Zi-Yuan Hu, Michael R. Lyu, Liwei Wang
Jina Embeddings Visual Representation Visual Reasoning Reasoning Benchmark Visual Representation Learning Promise

March 25, 2024

PropTest: Automatic Property Testing for Improved Visual Programming
Jaywon Koo, Ziyan Yang, Paola Cascante-Bonilla, Baishakhi Ray, Vicente Ordonez
Visual Reasoning Visual Programming Property Based Path Based Explanation

March 21, 2024

VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding
Ahmad Mahmood, Ashmal Vayani, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan
Video Understanding Visual Reasoning Reasoning System Video Question Self Refinement

March 19, 2024

HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning
Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi
Visual Reasoning Progressive Alignment Hydra MDP Compositional Visual Reasoning

March 18, 2024

Visual Preference Inference: An Image Sequence-Based Preference Reasoning in Tabletop Object Manipulation
Joonhyung Lee, Sangbeom Park, Yongin Kwon, Jemin Lee, Minwook Ahn, Sungjoon Choi
Visual Reasoning Video Sequence Tabletop Manipulation Preference Specification

March 7, 2024

How Far Are We from Intelligent Visual Deductive Reasoning?
Yizhe Zhang, He Bai, Ruixiang Zhang, Jiatao Gu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly
Vision Language Model Visual Reasoning Vision Language Task Deductive Reasoning Visual Intelligence

March 6, 2024

Slot Abstractors: Toward Scalable Abstract Visual Reasoning
Shanka Subhra Mondal, Jonathan D. Cohen, Taylor W. Webb
Potential Scalability Visual Reasoning Abstract Reasoning Abstract Visual Reasoning Slot Representation Visual Abstract Reasoning

March 3, 2024

What Is Missing in Multilingual Visual Reasoning and How to Fix It
Yueqi Song, Simran Khanuja, Graham Neubig
Natural Language Processing Model Visual Reasoning Multimodal Capability Open Model Multilingual Reasoning

March 1, 2024

Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks
Fakhraddin Alwajih, El Moatez Billah Nagoudi, Gagan Bhatia, Abdelrahman Mohamed, Muhammad Abdul-Mageed
Language Model New Benchmark Multimodal Large Language Model Visual Reasoning Single Parent Family Multimodal Chart

February 23, 2024

VISREAS: Complex Visual Reasoning with Unanswerable Questions
Syeda Nahida Akter, Sangwu Lee, Yingshan Chang, Yonatan Bisk, Eric Nyberg
Generative Model Query Information Visual Reasoning Unanswerable Question

February 21, 2024

WinoViz: Probing Visual Properties of Objects Under Different States
Woojeong Jin, Tejas Srinivasan, Jesse Thomason, Xiang Ren
Vision Language Model Arbitrary Object Visual Reasoning State Specific Decision Making Visual Commonsense Pragmatic Reasoning Visual Factor

February 20, 2024

Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative Cognition Approach
Guillermo Puebla, Jeffrey S. Bowers
Comparative Study Visual Reasoning Object Centric Representation Object Centric Visual Relation Abstract Visual Reasoning Object Centric Representation Learning

February 13, 2024

Pix2Code: Learning to Compose Neural Visual Concepts as Programs
Antonia Wüst, Wolfgang Stammer, Quentin Delfosse, Devendra Singh Dhami, Kristian Kersting
Visual Reasoning Visual Concept Object Representation Past Present Temporal Program Neural Composition

February 6, 2024

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
Vision Language Model Large Vision Language Model Visual Reasoning Side Chain DetAIL Manipulation Strategy

January 24, 2024

ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
Context Information Large Multimodal Model Visual Reasoning Context Reasoning Text Rich Image Visual Abstract Reasoning

January 3, 2024

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
Aleksandar Stanić, Sergi Caelles, Michael Tschannen
Large Language Model Zero Shot Visual Question Answering Visual Grounding Visual Reasoning Context Example Human Programmer

December 26, 2023

ChartBench: A Benchmark for Complex Visual Reasoning in Charts
Zhengzhuo Xu, Sinan Du, Yiyan Qi, Chengjin Xu, Chun Yuan, Jian Guo
New Benchmark Multimodal Large Language Model Visual Reasoning Chart Related Chart Comprehension

December 8, 2023

Localized Symbolic Knowledge Distillation for Visual Commonsense Models
Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi
Knowledge Distillation Vision Language Visual Reasoning Multimodal Task Visual Commonsense