Visual Commonsense

Visual commonsense research aims to equip computer vision systems with the ability to understand and reason about implicit, everyday knowledge embedded within images, going beyond simple object recognition. Current efforts focus on developing models, often leveraging vision-language transformers and large language models, that can generate descriptive and diverse commonsense inferences, handle counter-intuitive scenarios, and accurately ground individuals within complex scenes. This research is crucial for advancing artificial intelligence, enabling more robust and human-like reasoning in applications such as visual question answering, assistive robotics, and augmented reality.

Papers

December 8, 2024

Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor
Jiali Chen, Xusen Hei, Yuqi Xue, Yuancheng Wei, Jiayuan Xie, Yi Cai, Qing Li
LeArning Abstract Language Correction Commonsense Reasoning Task Multimodal Instruction Visual Commonsense Reasoning Visual Commonsense

October 17, 2024

ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions
Shailaja Keyur Sampat, Yezhou Yang, Chitta Baral
Zero Shot Reasoning Ability Concept Identification Past Action Visual Input Action Sequence Multi Modal Task Visual Commonsense

August 15, 2024

DIVE: Towards Descriptive and Diverse Visual Commonsense Generation
Jun-Hyung Park, Hyuntae Park, Youjin Kang, Eojin Jeon, SangKeun Lee
DIVeR Identification Visual Commonsense Commonsense Inference

June 19, 2024

Improving Visual Commonsense in Language Models via Multiple Image Generation
Guy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim
Language Model Commonsense Reasoning Visual Commonsense Reasoning Multimodal Knowledge Visual Commonsense

May 27, 2024

Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR
Zhenyang Li, Yangyang Guo, Kejie Wang, Xiaolin Chen, Liqiang Nie, Mohan Kankanhalli
Empirical Study Visual Reasoning Image Text Visual Commonsense Reasoning Visual Commonsense Vision Language Transformer Commonsense Transformer

February 27, 2024

VCD: Knowledge Base Guided Visual Commonsense Discovery in Images
Xiangqing Shen, Yurun Song, Siwei Wu, Rui Xia
Visual Commonsense

February 21, 2024

WinoViz: Probing Visual Properties of Objects Under Different States
Woojeong Jin, Tejas Srinivasan, Jesse Thomason, Xiang Ren
Vision Language Model Arbitrary Object Visual Reasoning State Specific Decision Making Visual Commonsense Pragmatic Reasoning Visual Factor

January 15, 2024

Seeing the Unseen: Visual Common Sense for Semantic Placement
Ram Ramrakhya, Aniruddha Kembhavi, Dhruv Batra, Zsolt Kira, Kuo-Hao Zeng, Luca Weihs
Object Detector Computer Vision Task Semantic Region Visual Commonsense Human Placement

December 8, 2023

Localized Symbolic Knowledge Distillation for Visual Commonsense Models
Jae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi
Knowledge Distillation Vision Language Visual Reasoning Multimodal Task Visual Commonsense

November 11, 2023

Visual Commonsense based Heterogeneous Graph Contrastive Learning
Zongzhao Li, Xiangyu Zhu, Xi Zhang, Zhaoxiang Zhang, Zhen Lei
Visual Question Answering Visual Reasoning Visual Commonsense Heterogeneous Graph Contrastive Commonsense Learning

October 30, 2023

ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond Visual Common Sense
Kankan Zhou, Eason Lai, Wei Bin Au Yeong, Kyriakos Mouratidis, Jing Jiang
Vision Language Model Complex Reasoning Vision Language Reasoning Capability Pre Trained Vision Language Model Commonsense Knowledge Visual Commonsense Rank One Model Editing

October 25, 2023

An Early Evaluation of GPT-4V(ision)
Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin
Language Understanding Visual Understanding Initial Study Puzzle Solving Visual Commonsense

October 9, 2023

ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models
Kaiwen Zhou, Kwonjoon Lee, Teruhisa Misu, Xin Eric Wang
Commonsense Reasoning Visual Understanding Visual Commonsense Reasoning Visual Commonsense Commonsense Inference Pre Trained Vision

July 23, 2023

CommonsenseVIS: Visualizing and Understanding Commonsense Reasoning Capabilities of Natural Language Models
Xingbo Wang, Renfei Huang, Zhihua Jin, Tianqing Fang, Huamin Qu
Commonsense Reasoning Commonsense Knowledge Natural Language Model Commonsense Question Answering Visual Commonsense

May 24, 2023

ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000 ImageNet Categories
Heming Xia, Qingxiu Dong, Lei Li, Jingjing Xu, Tianyu Liu, Ziwei Qin, Zhifang Sui
Visual Knowledge Visual Commonsense Imagenet C ImageNet Class

March 13, 2023

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images
Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz
Image Captioning Commonsense Reasoning Commonsense Knowledge Large Scale Synthetic Human Answer Mistake Image Composition Vision Language Benchmark Visual Commonsense Reasoning Visual Commonsense

December 14, 2022

Find Someone Who: Visual Commonsense Understanding in Human-Centric Grounding
Haoxuan You, Rui Sun, Zhecan Wang, Kai-Wei Chang, Shih-Fu Chang
Commonsense Reasoning Task Visual Commonsense Reasoning Visual Commonsense Commonsense Understanding

November 17, 2022

Visual Commonsense-aware Representation Network for Video Captioning
Pengpeng Zeng, Haonan Zhang, Lianli Gao, Xiangpeng Li, Jin Qian, Heng Tao Shen
Video Captioning Captioning Benchmark Visual Commonsense Video Feature

November 10, 2022

Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense
Zhecan Wang, Haoxuan You, Yicheng He, Wenhao Li, Kai-Wei Chang, Shih-Fu Chang
Fine Grained Vision Language Commonsense Knowledge Visual Commonsense Multimodal Evaluation

October 18, 2022

How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios
Mantas Mazeika, Eric Tang, Andy Zou, Steven Basart, Jun Shern Chan, Dawn Song, David Forsyth, Jacob Steinhardt, Dan Hendrycks
Fine Grained Video Understanding Underlying Emotion Cognitive Empathy Human Wellbeing Video Context Visual Commonsense Live Streaming Viewer