Visual Relation

Visual relation understanding in computer vision aims to enable machines to comprehend the relationships between objects within images and videos, mirroring human visual perception. Current research focuses on improving the accuracy and efficiency of visual relation detection and generation using various deep learning architectures, including transformers, graph neural networks, and diffusion models, often incorporating techniques like active perception and knowledge graphs to enhance performance. This field is crucial for advancing artificial intelligence, with applications ranging from scene understanding and image captioning to more complex tasks like robotic manipulation and medical image analysis.

Papers

July 9, 2022

Learning Structured Representations of Visual Scenes
Meng-Jiun Chiou
Structured Representation Visual Relation Mid Level Representation Representation Model

July 4, 2022

ViRel: Unsupervised Visual Relations Discovery with Graph-level Analogy
Daniel Zeng, Tailin Wu, Jure Leskovec
Graph Representation Visual Relation Relation Pattern Relation Classification Relation Learning Visual Relation Detection

June 18, 2022

Bear the Query in Mind: Visual Grounding with Query-conditioned Convolution
Chonghan Chen, Qi Jiang, Chih-Hao Wang, Noel Chen, Haohan Wang, Xiang Li, Bhiksha Raj
Visual Grounding Human Mind Query Information Visual Relation

June 11, 2022

A Benchmark for Compositional Visual Reasoning
Aimen Zerroug, Mohit Vaishnav, Julien Colin, Sebastian Musslick, Thomas Serre
New Benchmark Visual Reasoning Reasoning Benchmark Visual Relation Compositional Visual Reasoning

May 21, 2022

Visualizing CoAtNet Predictions for Aiding Melanoma Detection
Daniel Kvak
Visual Relation Skin Cancer Traditional Convolutional Melanoma Skin Cancer Melanoma Detection Class Classifier Multi Class Classification Task

April 24, 2022

RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning
Xiaojian Ma, Weili Nie, Zhiding Yu, Huaizu Jiang, Chaowei Xiao, Yuke Zhu, Song-Chun Zhu, Anima Anandkumar
Vision Transformer Visual Reasoning Visual Relation Depth Aware Transformer

April 6, 2022

DSGN++: Exploiting Visual-Spatial Relation for Stereo-based 3D Detectors
Yilun Chen, Shijia Huang, Shu Liu, Bei Yu, Jiaya Jia
3D Detection Visual Relation Camera Based 3D Object

April 3, 2022

Question-Driven Graph Fusion Network For Visual Question Answering
Yuxi Qian, Yuncong Hu, Ruonan Wang, Fangxiang Feng, Xiaojie Wang
Visual Question Answering Graph Attention Network Visual Relation

December 10, 2021

IFR-Explore: Learning Inter-object Functional Relationships in 3D Indoor Scenes
Qi Li, Kaichun Mo, Yanchao Yang, Hang Zhao, Leonidas Guibas
Visual Relation 3D Indoor Scene Visual Agent Exploratory Action

November 17, 2021

Learning to Compose Visual Relations
Nan Liu, Shuang Li, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba
LeArning Abstract Deep Neural Network Scene Structure Visual Imagery Visual Relation