Audio Visual Instance

Audio-visual instance segmentation aims to identify, segment, and track individual sound-producing objects within videos, combining audio and visual information. Current research focuses on efficient model architectures, such as Siamese networks and transformers, to handle the large datasets and computational demands of this multi-modal task, often incorporating contrastive learning and cross-modal fusion techniques. This field is significant because it advances multi-modal understanding, potentially impacting applications like video indexing, content analysis, and assistive technologies for the visually or hearing impaired. The development of new benchmark datasets is also driving progress in this rapidly evolving area.

Papers

March 28, 2024

Siamese Vision Transformers are Scalable Audio-visual Learners
Yan-Bo Lin, Gedas Bertasius
Audio Visual Siamese Network Siamese Transformer Audio Visual Instance

October 28, 2023

Audio-Visual Instance Segmentation
Ruohao Guo, Xianghua Ying, Yaru Chen, Dantong Niu, Guangyao Li, Liao Qu, Yanyu Qi, Jinxing Zhou, Bowei Xing, Wenzhen Yue, Ji Shi, Qixun Wang, Peiliang Zhang, Buwen Liang
Instance Segmentation Audio Visual Audio Visual Instance

July 31, 2023

Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics
Chen Liu, Peike Li, Xingqun Qi, Hu Zhang, Lincheng Li, Dadong Wang, Xin Yu
Cross Modal Audio Visual Segmentation Audio Visual Instance

January 4, 2023

Object Segmentation with Audio Context
Kaihui Zheng, Yuqing Ren, Zixin Shen, Tianxu Qin
Object Segmentation Video Instance Segmentation Modal Feature Acoustic Context Audio Visual Instance

July 12, 2022

Online Video Instance Segmentation via Robust Context Fusion
Xiang Li, Jinglu Wang, Xiaohao Xu, Bhiksha Raj, Yan Lu
Video Instance Segmentation Online Video Instance Segmentation Context Fusion Audio Visual Instance

Audio Visual Instance

Papers

Siamese Vision Transformers are Scalable Audio-visual Learners

Audio-Visual Instance Segmentation

Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics

Object Segmentation with Audio Context

Online Video Instance Segmentation via Robust Context Fusion