Scene Parsing

Scene parsing, the task of assigning semantic labels to each pixel in an image or video, aims to create a comprehensive understanding of visual scenes. Current research focuses on improving accuracy and robustness across diverse conditions, including nighttime scenes and videos, often employing techniques like unsupervised domain adaptation, transformer-based architectures (e.g., Vision Transformers), and multi-task learning to leverage contextual information from multiple sources (e.g., maps, audio). These advancements are crucial for applications such as autonomous driving, video understanding, and 3D scene reconstruction, enabling more sophisticated and reliable computer vision systems.

Papers

June 15, 2024

PIG: Prompt Images Guidance for Night-Time Scene Parsing
Zhifeng Xie, Rui Qiu, Sen Wang, Xin Tan, Yuan Xie, Lizhuang Ma
Domain Adaptation Image Pair Nighttime Image Nighttime Datasets Image Guidance Scene Parsing

June 14, 2024

MapVision: CVPR 2024 Autonomous Grand Challenge Mapless Driving Tech Report
Zhongyu Yang, Mai Liu, Jinluo Xie, Yueming Zhang, Chen Shen, Wei Shao, Jichao Jiao, Tengfei Xing, Runbo Hu, Pengfei Xu
Autonomous Driving Scene Understanding Multi View Image Scene Parsing Multi Perspective Camera

June 2, 2024

Semi-supervised Video Semantic Segmentation Using Unreliable Pseudo Labels for PVUW2024
Biao Wu, Diankai Zhang, Si Gao, Chengjian Zheng, Shaoli Liu, Ning Wang
Semantic Segmentation Computer Vision Pseudo Label Pixel Level Semi Supervised Video Object Segmentation Semi Supervised Image Classification HASOC Subtrack Scene Parsing

May 11, 2024

Direct Learning of Mesh and Appearance via 3D Gaussian Splatting
Ancheng Lin, Jun Li
Neural Radiance Field Gaussian Splatting Subject Appearance Mesh Ratio Dynamic Scene Representation Scene Parsing Direct Learning

September 4, 2023

Understanding Video Scenes through Text: Insights from Text-based Video Question Answering
Soumya Jahagirdar, Minesh Mathew, Dimosthenis Karatzas, C. V. Jawahar
Text Modality DCU Insight AQ Visual Understanding Scene Parsing Scene Text Understanding

June 6, 2023

Semantic Segmentation on VSPW Dataset through Contrastive Loss and Multi-dataset Training Approach
Min Yan, Qianxiong Ning, Qian Wang
Semantic Segmentation Contrastive Loss Temporal Correlation Multi Dataset Scene Parsing

March 6, 2023

Traffic Scene Parsing through the TSP6K Dataset
Peng-Tao Jiang, Yuqi Yang, Yang Cao, Qibin Hou, Ming-Ming Cheng, Chunhua Shen
Traffic Datasets Traffic Scene Scene Parsing

August 30, 2022

Boosting Night-time Scene Parsing with Learnable Frequency
Zhifeng Xie, Sen Wang, Ke Xu, Zhizhong Zhang, Xin Tan, Yuan Xie, Lizhuang Ma
Nighttime Image Frequency Learning Nighttime Datasets Scene Parsing Image Frequency

July 21, 2022

A Dense Material Segmentation Dataset for Indoor and Outdoor Scene Parsing
Paul Upchurch, Ransen Niu
Large Scale Dataset Indoor Environment Large Scale Scene Material Segmentation Scene Parsing

June 13, 2022

Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens
Elad Ben-Avraham, Roei Herzig, Karttikeya Mangalam, Amir Bar, Anna Rohrbach, Leonid Karlinsky, Trevor Darrell, Amir Globerson
Action Recognition Source Video Scene Representation Video Understanding Task Learning Framework Frame Consistency Scene Parsing

December 2, 2021

TBN-ViT: Temporal Bilateral Network with Vision Transformer for Video Scene Parsing
Bo Yan, Leilei Cao, Hongbin Wang
Vision Transformer Video Dataset ViT Lens Bilateral Network Scene Parsing

November 10, 2021

Structure from Silence: Learning Scene Structure from Ambient Sound
Ziyang Chen, Xixi Hu, Andrew Owens
Multimodal Model Inner Structure Multimodal Representation Multimodal Feature Ambient Sound Scene Parsing Learning Signal