Visual Understanding

Visual understanding research aims to enable computers to interpret and reason about images and videos as humans do, focusing on tasks like object recognition, scene description, and complex visual reasoning. Current research heavily utilizes large language and vision models (LLVMs), often incorporating vision transformers and leveraging techniques like chain-of-thought prompting and visual instruction tuning to improve performance. This field is crucial for advancing artificial intelligence, with applications ranging from robotics and autonomous driving to medical image analysis and accessibility tools for visually impaired individuals.

Papers

November 10, 2023

Towards A Unified Neural Architecture for Visual Recognition and Reasoning
Calvin Luo, Boqing Gong, Ting Chen, Chen Sun
Complex Reasoning Visual Reasoning Object Centric Representation Visual Recognition Visual Understanding Unified Neural

November 9, 2023

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
Vision Language Model Multi Modal Large Multimodal Model Instruction Following Visual Understanding Easy Tool Multimodal Agent

November 8, 2023

DAMEX: Dataset-aware Mixture-of-Experts for visual understanding of mixture-of-datasets
Yash Jain, Harkirat Behl, Zsolt Kira, Vibhav Vineet
Mixture of Expert Visual Understanding Object Detection Benchmark X Klaim Representation Collapse Dataset Mixture Universal Detection

October 25, 2023

An Early Evaluation of GPT-4V(ision)
Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin
Language Understanding Visual Understanding Initial Study Puzzle Solving Visual Commonsense

October 16, 2023

Reading Books is Great, But Not if You Are Driving! Visually Grounded Reasoning about Defeasible Commonsense Norms
Seungju Han, Junhyeok Kim, Jack Hessel, Liwei Jiang, Jiwan Chung, Yejin Son, Yejin Choi, Youngjae Yu
Complex Reasoning Visual Understanding Read V Human Judgment Cultural Commonsense

October 9, 2023

ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models
Kaiwen Zhou, Kwonjoon Lee, Teruhisa Misu, Xin Eric Wang
Commonsense Reasoning Visual Understanding Visual Commonsense Reasoning Visual Commonsense Commonsense Inference Pre Trained Vision

October 3, 2023

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts
Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao
Foundation Model Large Multimodal Model Mathematical Reasoning Visual Understanding Visual Context Compositional Reasoning

September 4, 2023

Understanding Video Scenes through Text: Insights from Text-based Video Question Answering
Soumya Jahagirdar, Minesh Mathew, Dimosthenis Karatzas, C. V. Jawahar
Text Modality DCU Insight AQ Visual Understanding Scene Parsing Scene Text Understanding

August 21, 2023

Seeing the Intangible: Survey of Image Classification into High-Level and Abstract Categories
Delfina Sol Martinez Pandiani, Valentina Presutti
Timely Survey Computer Vision Image Classification Visual Reasoning Visual Understanding High Level Categorical Structure Sensemaking Tool

August 17, 2023

Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual Reasoning
David Noever, Samantha Elizabeth Miller Noever
Vision Language Model Multimodal Model Visual Reasoning Optical Experiment Text Recognition Visual Understanding Multimodal Analysis GPT 4 Vision Google Bard

July 27, 2023

How Good is Google Bard's Visual Understanding? An Empirical Study on Open Challenges
Haotong Qin, Ge-Peng Ji, Salman Khan, Deng-Ping Fan, Fahad Shahbaz Khan, Luc Van Gool
Empirical Study Multi Modal Conversational AI Visual Perception Open Challenge Visual Understanding Visual Input Fine Grained Visual Google Bard

June 7, 2023

ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models
Maitreya Patel, Tejas Gokhale, Chitta Baral, Yezhou Yang
Text to Image Diffusion Model Visual Concept Visual Understanding Concept Learning

May 24, 2023

Visual Programming for Text-to-Image Generation and Evaluation
Jaemin Cho, Abhay Zala, Mohit Bansal
Language Model Global Evaluation Text to Image Generation Vision Language Task Visual Explanation Visual Understanding Visual Programming

December 5, 2022

Images Speak in Images: A Generalist Painter for In-Context Visual Learning
Xinlong Wang, Wen Wang, Yue Cao, Chunhua Shen, Tiejun Huang
Context Learning Vision Task Task Specific Model Visual Understanding Visual in Context Learning Image Speak Creative Painting

November 29, 2022

Lightweight Structure-Aware Attention for Visual Understanding
Heeseung Kwon, Francisco M. Castro, Manuel J. Marin-Jimenez, Nicolas Guil, Karteek Alahari
Vision Transformer Lightweight High Visual Understanding Structured Attention Attention Operator

October 28, 2022

A Survey on Causal Representation Learning and Future Work for Medical Image Analysis
Changjie Lu
Timely Survey Transfer Learning Causal Inference Medical Image Analysis Causal Representation Learning Visual Understanding Feature Mining Future Work

September 13, 2022

Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest
Jack Hessel, Ana Marasović, Jena D. Hwang, Lillian Lee, Jeff Da, Rowan Zellers, Robert Mankoff, Yejin Choi
Human Understanding Generated Caption Visual Understanding Human Humor Electric SHEEP Comic Analysis Human Explanation Android Robot

July 27, 2022

Break and Make: Interactive Structural Understanding Using LEGO Bricks
Aaron Walsman, Muru Zhang, Klemen Kotar, Karthik Desingh, Ali Farhadi, Dieter Fox
Visual Understanding LEGO Object Collaborative Reasoning BREAK for Make

February 25, 2022

Joint Answering and Explanation for Visual Commonsense Reasoning
Zhenyang Li, Yangyang Guo, Kejie Wang, Yinwei Wei, Liqiang Nie, Mohan Kankanhalli
Question Answering Line by Line Explanation Visual Question Answering Visual Reasoning Visual Understanding Visual Commonsense Reasoning Joint Reasoning

February 17, 2022

Dynamic Object Comprehension: A Framework For Evaluating Artificial Visual Perception
Scott Y. L. Chin, Bradley R. Quinton
Computer Vision New Framework Visual Perception Mixed Reality Visual Understanding Machine Perception Augmented Reality Application

Visual Understanding

Papers

Towards A Unified Neural Architecture for Visual Recognition and Reasoning

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

DAMEX: Dataset-aware Mixture-of-Experts for visual understanding of mixture-of-datasets

An Early Evaluation of GPT-4V(ision)

Reading Books is Great, But Not if You Are Driving! Visually Grounded Reasoning about Defeasible Commonsense Norms

ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

Understanding Video Scenes through Text: Insights from Text-based Video Question Answering

Seeing the Intangible: Survey of Image Classification into High-Level and Abstract Categories

Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual Reasoning

How Good is Google Bard's Visual Understanding? An Empirical Study on Open Challenges

ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models

Visual Programming for Text-to-Image Generation and Evaluation

Images Speak in Images: A Generalist Painter for In-Context Visual Learning

Lightweight Structure-Aware Attention for Visual Understanding

A Survey on Causal Representation Learning and Future Work for Medical Image Analysis

Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest

Break and Make: Interactive Structural Understanding Using LEGO Bricks

Joint Answering and Explanation for Visual Commonsense Reasoning

Dynamic Object Comprehension: A Framework For Evaluating Artificial Visual Perception