Audio Visual Separation

Audio-visual separation aims to isolate individual sound sources from a mixture of audio and video data, improving upon traditional audio-only separation methods. Current research focuses on enhancing separation accuracy by incorporating spatial information, handling invisible sounds, and improving the quality and generalization capabilities of models, employing techniques like generative diffusion models and transformer-based architectures with attention mechanisms. These advancements are significant for applications such as virtual and augmented reality, improving the realism and clarity of audio experiences, and also for creating more robust and adaptable sound separation systems in diverse environments.

Papers

November 5, 2024

Continual Audio-Visual Sound Separation
Weiguo Pian, Yiyang Nan, Shijian Deng, Shentong Mo, Yunhui Guo, Yapeng Tian
Audio Visual Audio Visual Separation

October 31, 2023

LAVSS: Location-Guided Audio-Visual Spatial Audio Separation
Yuxin Ye, Wenming Yang, Yapeng Tian
Spatial Audio Music Source Separation Audio Visual Separation

October 18, 2023

Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation
Yiyang Su, Ali Vosoughi, Shijian Deng, Yapeng Tian, Chenliang Xu
Cross Modal Alignment Anomalous Sound Sound Source Separation Audio Visual Separation

July 31, 2023

DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion Models
Chao Huang, Susan Liang, Yapeng Tian, Anurag Kumar, Chenliang Xu
Audio Visual High Quality Generative Diffusion Model Audio Source Separation Sound Separation Sound Source Separation Audio Visual Separation

December 7, 2022

iQuery: Instruments as Queries for Audio-Visual Sound Separation
Jiaben Chen, Renrui Zhang, Dongze Lian, Jiaqi Yang, Ziyao Zeng, Jianbo Shi
Audio Visual Query Information Speech Representation Disentanglement Musical Instrument Sound Separation Sound Source Separation Audio Visual Separation

February 2, 2022

Active Audio-Visual Separation of Dynamic Sound Sources
Sagnik Majumder, Kristen Grauman
High Fidelity Audio Target Sound Audio Visual Separation