Visual Reasoning Task

Visual reasoning tasks challenge artificial intelligence systems to interpret and reason about visual information, mirroring human cognitive abilities. Current research focuses on enhancing large language models with visual perception capabilities, often employing multimodal architectures that integrate image and text processing, and exploring techniques like chain-of-thought prompting and guided attention mechanisms to improve reasoning performance. These advancements aim to improve the accuracy and efficiency of AI in complex visual tasks, with implications for fields like computer-aided design, medical image analysis, and robotics. The development of new benchmark datasets and the investigation of learning-independent reasoning abilities are also key areas of ongoing investigation.

10papers

Papers

February 25, 2025

DeepSeek-R1 Outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in Bilingual Complex Ophthalmology Reasoning
Pusheng Xu, Yue Wu, Kai Jin, Xiaolan Chen, Mingguang He, Danli Shi
The Hong Kong Polytechnic University●Zhejiang University●Research Centre for SHARP Vision●Centre for Eye and Vision Research
Reasoning Ability Multilingual Reasoning DeepSeek Coder Visual Reasoning Task Mini Honor OpenAI Codex

November 20, 2024

Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking
Harsha Vardhan Khurdula, Basem Rizk, Indus Khaitan, Janit Anjaria, Aviral Srivastava, Rajvardhan Khaitan
Vision Language Model Vision Language Visual Understanding Model Benchmark Visual Reasoning Task Reasoning Depth Multi Step Reasoning Puzzle Solving

September 21, 2024

Enhancing Advanced Visual Reasoning Ability of Large Language Models
Zhiyuan Li, Dongnan Liu, Chaoyi Zhang, Heng Wang, Tengfei Xue, Weidong Cai
Visual Language Model Vision Language Visual Reasoning Visual Reasoning Ability Visual Reasoning Task

September 3, 2024

How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?
Saeid Asgari Taghanaki, Joseph Lambourne, Alana Mongkhounsavath
3d Vqa Visual Reasoning Task Image Distribution Computer Aided Design Vision Language Model

July 25, 2024

Untrained neural networks can demonstrate memorization-independent abstract reasoning
Tomer Barak, Yonatan Loewenstein
Abstract Reasoning Neural Network Cognitive Process Visual Reasoning Task

June 13, 2024

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models
Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Ranjay Krishna
Thought Reasoning Visual Reasoning Task Multimodal Language Model Creative Sketching Perspective Sketch

May 28, 2024

MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning
Somnath Kumar, Yash Gadhia, Tanuja Ganu, Akshay Nambi
Visual Reasoning Task Critical Thinking Visual Reasoning Multi Modal Understanding Complexity Level Complex Reasoning

April 24, 2024

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM
Timin Gao, Peixian Chen, Mengdan Zhang, Chaoyou Fu, Yunhang Shen, Yan Zhang, Shengchuan Zhang, Xiawu Zheng, Xing Sun, Liujuan Cao, Rongrong Ji
Visual Reasoning Task MLLM Attention Chain of Thought Visual Reasoning

November 12, 2023

Adaptive recurrent vision performs zero-shot computation scaling to unseen difficulty levels
Vijay Veerabadran, Srinivas Ravishankar, Yuan Tang, Ritik Raina, Virginia R. de Sa
Visual Reasoning Task Recurrent Network Zero Shot

November 2, 2023

What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning
Yifan Du, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Jinpeng Wang, Chuyuan Wang, Mingchen Cai, Ruihua Song, Ji-Rong Wen
Visual Instruction Tuning Synthetic Reasoning Visual Reasoning Visual Reasoning Task Visual Instruction

July 31, 2023

Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks
Kousik Rajesh, Mrigank Raman, Mohammed Asad Karim, Pranit Chawla
Multi Modal Data Fine Grained Object Visual Reasoning Task Capability Evolution Multi Modal Model Steel Bridge

June 10, 2022

GAMR: A Guided Attention Model for (visual) Reasoning
Mohit Vaishnav, Thomas Serre
Visual Reasoning Visual Reasoning Task Smooth Attention Attention Based Reasoning

Visual Reasoning Task

Papers

DeepSeek-R1 Outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in Bilingual Complex Ophthalmology Reasoning

Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking

Enhancing Advanced Visual Reasoning Ability of Large Language Models

How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?

Untrained neural networks can demonstrate memorization-independent abstract reasoning

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

Adaptive recurrent vision performs zero-shot computation scaling to unseen difficulty levels

What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning

Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks

GAMR: A Guided Attention Model for (visual) Reasoning