Audio Visual Segmentation

Audio-visual segmentation (AVS) aims to identify and delineate the visual sources of sounds within video frames, generating pixel-level masks that correspond to audible objects. Current research heavily utilizes transformer-based architectures, focusing on improving efficiency for real-time applications, mitigating biases stemming from inherent data distributions, and enhancing the integration of audio and visual cues through techniques like adaptive query generation and multi-modal attention mechanisms. These advancements are significant for applications in areas such as video editing, augmented reality, and robotics, where accurate understanding of audio-visual relationships is crucial. Furthermore, research is exploring weakly-supervised and even unsupervised approaches to reduce reliance on expensive pixel-level annotations.

Papers

September 13, 2023

Leveraging Foundation models for Unsupervised Audio-Visual Segmentation
Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Xiatian Zhu
Foundation Model Unsupervised Setting Cross Modality Audio Visual Segmentation Mask Pair

August 20, 2023

BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation Knowledge
Chen Liu, Peike Li, Hu Zhang, Lincheng Li, Zi Huang, Dadong Wang, Xin Yu
Foundation Model Audio Visual Segmentation Audio Visual Correspondence

August 16, 2023

Improving Audio-Visual Segmentation with Bidirectional Generation
Dawei Hao, Yuxin Mao, Bowen He, Xiaodong Han, Yuchao Dai, Yiran Zhong
Optical Flow Audio Visual Segmentation Bidirectional Generation Audio Visual Transformer

July 31, 2023

July 25, 2023

Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation
Jinxiang Liu, Chen Ju, Chaofan Ma, Yanfeng Wang, Yu Wang, Ya Zhang
Audio Visual Multimodal Transformer Audio Visual Segmentation Query Transformer

July 3, 2023

AVSegFormer: Audio-Visual Segmentation with Transformer
Shengyi Gao, Zhe Chen, Guo Chen, Wenhai Wang, Tong Lu
Transformer Based Transformer Architecture Transformer Decoder Audio Visual Segmentation Audio Visual Scene

May 18, 2023

Annotation-free Audio-Visual Segmentation
Jinxiang Liu, Yu Wang, Chen Ju, Chaofan Ma, Ya Zhang, Weidi Xie
Segment Anything Model Audio Datasets Segmentation Dataset Audio Visual Segmentation Audio Visual Fusion

May 12, 2023

Transavs: End-To-End Audio-Visual Segmentation With Transformer
Yuhang Ling, Yuxi Li, Zhenye Gan, Jiangning Zhang, Mingmin Chi, Yabiao Wang
Transformer Based Audio Visual Segmentation Mask Audio Visual Segmentation VidSGG Datasets Audio Object

May 3, 2023

AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation
Shentong Mo, Yapeng Tian
Segmentation Based Approach Segment Anything Model Audio Visual Modal Feature Audio Visual Segmentation Audio Visual Event Localization Visual Sound

April 6, 2023

Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation
Yuanhong Chen, Yuyuan Liu, Hu Wang, Fengbei Liu, Chong Wang, Helen Frazer, Gustavo Carneiro
Audio Visual Segmentation Benchmark Audio Visual Segmentation Audio Visual Learning

January 30, 2023

Audio-Visual Segmentation with Semantics
Jinxing Zhou, Xuyang Shen, Jianyuan Wang, Jiayi Zhang, Weixuan Sun, Jing Zhang, Stan Birchfield, Dan Guo, Lingpeng Kong, Meng Wang, Yiran Zhong
Semantics Surfaced Audio Visual Segmentation Audio Visual Semantic Segmentation

July 11, 2022

Audio-Visual Segmentation
Jinxing Zhou, Jianyuan Wang, Jiayi Zhang, Weixuan Sun, Jing Zhang, Stan Birchfield, Dan Guo, Lingpeng Kong, Meng Wang, Yiran Zhong
Audio Visual Segmentation