Object Level Representation

Object-level representation in computer vision aims to represent scenes not as pixel grids but as collections of individual objects, each with its own features, enabling more robust and interpretable AI systems. Current research focuses on developing models that learn these representations effectively, often employing transformer architectures, variational autoencoders, and contrastive learning methods, with a strong emphasis on handling objects of varying scales and incorporating both visual and textual information. This research is crucial for advancing applications such as multi-object tracking, scene synthesis, and robotic manipulation, by enabling more accurate and generalizable perception and reasoning capabilities.

Papers

December 13, 2024

Object-Focused Data Selection for Dense Prediction Tasks
Niclas Popp, Dan Zhang, Jan Hendrik Metzen, Matthias Hein, Lukas Schott
Data Selection Dense Prediction Task Image Level Representation Object Level Representation

October 29, 2024

PACA: Perspective-Aware Cross-Attention Representation for Zero-Shot Scene Rearrangement
Shutong Jin, Ruiyu Wang, Kuangyi Chen, Florian T.Pokorny
Zero Shot Cross Attention Mechanism Object Level Representation Scene Change Viewpoint Control

October 2, 2024

Multi-Scale Fusion for Object Representation
Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen
Variational Autoencoder Object Representation Object Centric Learning Multi Scale Fusion Scale Fusion Object Level Representation

June 13, 2024

Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models
Ziyi Wu, Yulia Rubanova, Rishabh Kabra, Drew A. Hudson, Igor Gilitschenski, Yusuf Aytar, Sjoerd van Steenkiste, Kelsey R. Allen, Thomas Kipf
Text to Image Diffusion Model Image Diffusion Model Object Pose Object Level Representation

May 17, 2024

Learning Object-Centric Representation via Reverse Hierarchy Guidance
Junhong Zou, Xiangyu Zhu, Zhaoxiang Zhang, Zhen Lei
LeArning Abstract Object Centric Representation Object Centric Learning Visual Interpretation Guided Network Object Level Representation Visual Pathway

March 21, 2024

T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy
Qing Jiang, Feng Li, Zhaoyang Zeng, Tianhe Ren, Shilong Liu, Lei Zhang
Zero Shot Visual Prompting Open Set Object Object Level Representation

March 3, 2024

EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation
Chanyoung Kim, Woojung Han, Dayun Ju, Seong Jae Hwang
Semantic Segmentation Unsupervised Semantic Segmentation Object Centric Representation Learning Object Level Representation

November 14, 2023

Contrastive Learning for Multi-Object Tracking with Transformers
Pierre-François De Plaen, Nicola Marinello, Marc Proesmans, Tinne Tuytelaars, Luc Van Gool
Contrastive Learning Transformer Megatron Decepticons Multi Object Tracking Detection Transformer Object Level Representation

September 7, 2023

SimNP: Learning Self-Similarity Priors Between Neural Points
Christopher Wewer, Eddy Ilg, Bernt Schiele, Jan Eric Lenssen
Neural Radiance Field Point Representation Neural Field Representation Neural Point Object Level Representation Self Similarity

August 1, 2023

Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding
Runyu Ding, Jihan Yang, Chuhui Xue, Wenqing Zhang, Song Bai, Xiaojuan Qi
Semantic Segmentation Instance Segmentation Object Level Representation

May 22, 2023

You Only Look at One: Category-Level Object Representations for Pose Estimation From a Single Example
Walter Goodwin, Ioannis Havoutis, Ingmar Posner
Pose Estimation Pose Estimate Single Example Category Level Active Perception Object Level Representation

October 25, 2022

PlanT: Explainable Planning Transformers via Object-Level Representations
Katrin Renz, Kashyap Chitta, Otniel-Bogdan Mercea, A. Sophia Koepke, Zeynep Akata, Andreas Geiger
Plant Identification Autonomous Perception Planning Transformer Object Level Representation

May 16, 2022

Generalizable Task Planning through Representation Pretraining
Chen Wang, Danfei Xu, Li Fei-Fei
Learning Based Pre Trained Representation End to End Learning Multi Step Manipulation Task Object Level Representation