Visual Relation

Visual relation understanding in computer vision aims to enable machines to comprehend the relationships between objects within images and videos, mirroring human visual perception. Current research focuses on improving the accuracy and efficiency of visual relation detection and generation using various deep learning architectures, including transformers, graph neural networks, and diffusion models, often incorporating techniques like active perception and knowledge graphs to enhance performance. This field is crucial for advancing artificial intelligence, with applications ranging from scene understanding and image captioning to more complex tasks like robotic manipulation and medical image analysis.

Papers

November 3, 2023

Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection
Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li
Scene Graph Human Object Interaction Scene Graph Generation Unified Alignment Human Object Interaction Detection Transformer Based Framework Visual Relation

October 14, 2023

Deep Neural Networks Can Learn Generalizable Same-Different Visual Relations
Alexa R. Tartaglini, Sheridan Feucht, Michael A. Lepori, Wai Keen Vong, Charles Lovering, Brenden M. Lake, Ellie Pavlick
Convolutional Neural Network Deep Neural Network Strong Generalization Distribution Generalization Visual Relation

October 13, 2023

Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA
Sheng Zhou, Dan Guo, Jia Li, Xun Yang, Meng Wang
Visual Relation Spatial Relation Adaptive Graph Graph Inference Page Document VQA Sparse Token

August 18, 2023

RLIPv2: Fast Scaling of Relational Language-Image Pre-training
Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, Deli Zhao
Object Detection Scene Graph Visual Relation Large Scale Pre Training Strong Scaling Vision Language Fusion

July 10, 2023

CREPE: Learnable Prompting With CLIP Improves Visual Relationship Prediction
Rakshith Subramanyam, T. S. Jayram, Rushil Anirudh, Jayaraman J. Thiagarajan
Vision Language Model Single CLIP Visual Relation CLIP Embeddings Relation Prediction Visual Relationship

June 14, 2023

LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation
Linfeng Yuan, Miaojing Shi, Zijie Yue, Qijun Chen
Consistency Loss Visual Relation Cross Attention Module Referring Video Object Segmentation Annotated Frame

May 30, 2023

Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient Scene Graph Generation
Neau Maëlic, Paulo E. Santos, Anne-Gwenn Bosser, Cédric Buche
Fine Grained Scene Graph Scene Understanding Scene Graph Generation Data Centric Visual Relation Visual Genome

May 23, 2023

Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining
Emanuele Bugliarello, Aida Nematzadeh, Lisa Anne Hendricks
LeArning Abstract Fine Grained Vision Language Weakly Supervised Multimodal Representation Multimodal Pre Visual Relation Visual Relation Detection

May 22, 2023

NeSy4VRD: A Multifaceted Resource for Neurosymbolic AI Research using Knowledge Graphs in Visual Relationship Detection
David Herron, Ernesto Jiménez-Ruiz, Giacomo Tarroni, Tillman Weyde
Knowledge Graph Visual Relation Neurosymbolic AI OWL Ontology Visual Relationship BN HTRd Dataset

April 14, 2023

The role of object-centric representations, guided attention, and external memory on generalizing visual relations
Guillermo Puebla, Jeffrey S. Bowers
Deep Neural Network Human Attention Integral Role Visual Reasoning Object Centric Representation Visual Relation Abstract Visual Reasoning Memory Capacity

April 11, 2023

Boosting Cross-task Transferability of Adversarial Patches with Visual Relations
Tony Ma, Songze Li, Yisong Xiao, Shunchang Liu
Adversarial Example Black Box Visual Reasoning Adversarial Patch Visual Relation Model Transferability Adversarial Patch Generation

March 23, 2023

March 16, 2023

Unified Visual Relationship Detection with Vision and Language Models
Long Zhao, Liangzhe Yuan, Boqing Gong, Yin Cui, Florian Schroff, Ming-Hsuan Yang, Hartwig Adam, Ting Liu
Language Model Vision Paper Visual Relation Visual Semantics Visual Relationship

March 9, 2023

Knowledge-augmented Few-shot Visual Relation Detection
Tianyu Yu, Yangning Li, Jiaoyan Chen, Yinghui Li, Hai-Tao Zheng, Xi Chen, Qingbin Liu, Wenqiang Liu, Dongxiao Huang, Bei Wu, Yexin Wang
Shot Learning Visual Relation Visual Relation Detection

November 19, 2022

Rethinking Batch Sample Relationships for Data Representation: A Batch-Graph Transformer based Approach
Xixi Wang, Bo Jiang, Xiao Wang, Bin Luo
Constructive Approach Self Attention Graph Transformer Image Representation Visual Relation Data Representation

September 5, 2022

RLIP: Relational Language-Image Pre-training for Human-Object Interaction Detection
Hangjie Yuan, Jianwen Jiang, Samuel Albanie, Tao Feng, Ziyuan Huang, Dong Ni, Mingqian Tang
Human Object Interaction Human Object Interaction Detection Visual Relation Contrastive Pre Training Relation Label

August 23, 2022

Distance-Aware Occlusion Detection with Focused Attention
Yang Li, Yucheng Tu, Xiaoxue Chen, Hao Zhao, Guyue Zhou
Visual Relation Occlusion Aware Visual Relationship Intersection Identification

August 17, 2022

Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning
Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li
Fine Grained Scene Graph Generation Visual Relation Visual Genome Prompt Based Fine Tuning

August 3, 2022

Integrating Object-aware and Interaction-aware Knowledge for Weakly Supervised Scene Graph Generation
Xingchen Li, Long Chen, Wenbo Ma, Yi Yang, Jun Xiao
Weak Supervision Scene Graph Generation Visual Relation Level Supervision Knowledge Interaction

Visual Relation

Papers

Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection

Deep Neural Networks Can Learn Generalizable Same-Different Visual Relations

Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA

RLIPv2: Fast Scaling of Relational Language-Image Pre-training

CREPE: Learnable Prompting With CLIP Improves Visual Relationship Prediction

LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation

Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient Scene Graph Generation

Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining

NeSy4VRD: A Multifaceted Resource for Neurosymbolic AI Research using Knowledge Graphs in Visual Relationship Detection

The role of object-centric representations, guided attention, and external memory on generalizing visual relations

Boosting Cross-task Transferability of Adversarial Patches with Visual Relations

ReVersion: Diffusion-Based Relation Inversion from Images

Taking A Closer Look at Visual Relation: Unbiased Video Scene Graph Generation with Decoupled Label Learning

Unified Visual Relationship Detection with Vision and Language Models

Knowledge-augmented Few-shot Visual Relation Detection

Rethinking Batch Sample Relationships for Data Representation: A Batch-Graph Transformer based Approach

RLIP: Relational Language-Image Pre-training for Human-Object Interaction Detection

Distance-Aware Occlusion Detection with Focused Attention

Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning

Integrating Object-aware and Interaction-aware Knowledge for Weakly Supervised Scene Graph Generation