Audio Visual Semantic Segmentation

Audio-visual semantic segmentation (AVSS) aims to identify and classify the sources of sounds within video frames at the pixel level, combining visual and auditory information for improved accuracy. Recent research focuses on extending AVSS to open-vocabulary scenarios, handling partially missing modalities (e.g., limited camera views), and improving training efficiency through techniques like progressive training strategies. These advancements are significant for applications such as augmented reality safety systems and generally improving the understanding of complex audio-visual scenes, pushing the boundaries of multimodal understanding in computer vision and machine learning.

Papers

July 31, 2024

Open-Vocabulary Audio-Visual Semantic Segmentation
Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
Open Vocabulary VidSGG Datasets Audio Visual Semantic Segmentation

July 16, 2024

Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation
Juncheng Ma, Peiwen Sun, Yaoting Wang, Di Hu
Audio Visual Audio Visual Segmentation Audio Visual Correspondence Progressive Training Audio Visual Semantic Segmentation

December 14, 2023

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation
Renjie Wu, Hu Wang, Feras Dayoub, Hsiang-Ting Chen
Semantic Segmentation Augmented Reality Well Defined Segment Best View Missing Modality Visual Modality Audio Visual Semantic Segmentation

January 30, 2023

Audio-Visual Segmentation with Semantics
Jinxing Zhou, Xuyang Shen, Jianyuan Wang, Jiayi Zhang, Weixuan Sun, Jing Zhang, Stan Birchfield, Dan Guo, Lingpeng Kong, Meng Wang, Yiran Zhong
Semantics Surfaced Audio Visual Segmentation Audio Visual Semantic Segmentation

Audio Visual Semantic Segmentation

Papers

Open-Vocabulary Audio-Visual Semantic Segmentation

Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation

Audio-Visual Segmentation with Semantics