Target Speaker Extraction

Target speaker extraction (TSE) aims to isolate a specific speaker's voice from overlapping speech mixtures, a crucial task for applications like hearing aids and personalized interfaces. Current research emphasizes improving robustness and generalization, focusing on model architectures like transformers and convolutional neural networks, often incorporating curriculum learning and data augmentation techniques to enhance performance, particularly in noisy or reverberant environments. The development of efficient and accurate TSE methods holds significant promise for advancing speech processing technologies and improving human-computer interaction in challenging acoustic scenarios.

Papers

October 12, 2023

A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction
Kohei Saijo, Wangyou Zhang, Zhong-Qiu Wang, Shinji Watanabe, Tetsunori Kobayashi, Tetsuji Ogawa
Speech Enhancement Denoising Process Speech Separation Process Extraction Separation Performance Speech Dereverberation Target Speaker Extraction

October 11, 2023

Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction
Xiang Hao, Jibin Wu, Jianwei Yu, Chenglin Xu, Kay Chen Tan
Target Speaker Extraction Target Speaker Cocktail Party Text Based Cue Blind Extraction

October 7, 2023

Conditional Diffusion Model for Target Speaker Extraction
Theodor Nguyen, Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C Woodland
Conditional Diffusion Model Speaker Embeddings Score Based Generative Target Speaker Extraction

September 15, 2023

Audio-Visual Active Speaker Extraction for Sparsely Overlapped Multi-talker Speech
Junjie Li, Ruijie Tao, Zexu Pan, Meng Ge, Shuai Wang, Haizhou Li
Speech Representation Disentanglement Target Speaker Extraction Active Speaker Detection Audio Visual Speaker Extraction

June 28, 2023

Focus on the Sound around You: Monaural Target Speaker Extraction via Distance and Speaker Information
Jiuxin Lin, Peng Wang, Heinrich Dinkel, Jun Chen, Zhiyong Wu, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang
Speech Enhancement Source Separation Human Driving Focus Sound Design Distance Matter Speaker Information Target Speaker Extraction

June 25, 2023

AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target Speaker Extraction
Jiuxin Lin, Xinyu Cai, Heinrich Dinkel, Jun Chen, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Zhiyong Wu, Yujun Wang, Helen Meng
Cross Attention Target Speaker Extraction Cross Attention Transformer Audio Visual Target

March 15, 2023

Beamformer-Guided Target Speaker Extraction
Mohamed Elminshawi, Srikanth Raj Chetupalli, Emanuël A. P. Habets
Adaptive Beamforming Target Speaker Extraction Single Channel Target Speaker

February 15, 2023

Multi-Channel Target Speaker Extraction with Refinement: The WavLab Submission to the Second Clarity Enhancement Challenge
Samuele Cornell, Zhong-Qiu Wang, Yoshiki Masuyama, Shinji Watanabe, Manuel Pariente, Nobutaka Ono
Target Speaker Extraction Monaural Speech Separation

January 16, 2023

Improving Target Speaker Extraction with Sparse LDA-transformed Speaker Embeddings
Kai Liu, Xucheng Wan, Ziqing Du, Huan Zhou
Speaker Verification Many Sparse Speaker Embeddings Target Speaker Extraction Cued Speech Speaker Discriminability

December 10, 2022

GPU-accelerated Guided Source Separation for Meeting Transcription
Desh Raj, Daniel Povey, Sanjeev Khudanpur
Source Separation Target Speaker Extraction Blind Source Separation Meeting Transcript Overlapped Speech Detection

November 1, 2022

Adapting self-supervised models to multi-talker speech recognition using speaker embeddings
Zili Huang, Desh Raj, Paola García, Sanjeev Khudanpur
Self Supervised Speaker Embeddings Self Supervised Model Target Speaker Extraction Multi Talker Joint Speaker Feature

October 31, 2022

ImagineNET: Target Speaker Extraction with Intermittent Visual Cue through Embedding Inpainting
Zexu Pan, Wupeng Wang, Marvin Borsdorf, Haizhou Li
Visual Cue Target Speaker Extraction Speaker Extraction Audio Visual Speaker Extraction

October 28, 2022

Hierarchical speaker representation for target speaker extraction
Shulin He, Huaiwen Zhang, Wei Rao, Kanghao Zhang, Yukai Ju, Yang Yang, Xueliang Zhang
Speaker Embeddings Speaker Representation Target Speaker Extraction Target Extraction Deep Noise Suppression Challenge

October 27, 2022

Exploiting spatial information with the informed complex-valued spatial autoencoder for target speaker extraction
Annika Briegleb, Mhd Modar Halimeh, Walter Kellermann
Spatial Information Target Speaker Extraction Spatial Filtering ComplEx Valued

June 18, 2022

Semi-supervised Time Domain Target Speaker Extraction with Attention
Zhepei Wang, Ritwik Giri, Shrikant Venkataramani, Umut Isik, Jean-Marc Valin, Paris Smaragdis, Mike Goodwin, Arvindh Krishnaswamy
Human Attention Speaker Embeddings Target Speaker Extraction Prior Network

March 30, 2022

Coarse-to-Fine Recursive Speech Separation for Unknown Number of Speakers
Zhenhao Jin, Xiang Hao, Xiangdong Su
Speech Separation Speaker Information Target Speaker Extraction Unknown Number Cue Point

February 21, 2022

L-SpEx: Localized Target Speaker Extraction
Meng Ge, Chenglin Xu, Longbiao Wang, Eng Siong Chng, Jianwu Dang, Haizhou Li
Target Speaker Extraction Speaker Extraction Speaker Localization Cued Speech

February 1, 2022

New Insights on Target Speaker Extraction
Mohamed Elminshawi, Wolfgang Mack, Srikanth Raj Chetupalli, Soumitro Chakrabarty, Emanuël A. P. Habets
Speech Separation Target Speaker Extraction Speaker Extraction Input Mixture New Insight Extraction Performance

Target Speaker Extraction

Papers

A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction

Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction

Conditional Diffusion Model for Target Speaker Extraction

Audio-Visual Active Speaker Extraction for Sparsely Overlapped Multi-talker Speech

Focus on the Sound around You: Monaural Target Speaker Extraction via Distance and Speaker Information

AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target Speaker Extraction

Beamformer-Guided Target Speaker Extraction

Multi-Channel Target Speaker Extraction with Refinement: The WavLab Submission to the Second Clarity Enhancement Challenge

Improving Target Speaker Extraction with Sparse LDA-transformed Speaker Embeddings

GPU-accelerated Guided Source Separation for Meeting Transcription

Adapting self-supervised models to multi-talker speech recognition using speaker embeddings

ImagineNET: Target Speaker Extraction with Intermittent Visual Cue through Embedding Inpainting

Hierarchical speaker representation for target speaker extraction

Exploiting spatial information with the informed complex-valued spatial autoencoder for target speaker extraction

Semi-supervised Time Domain Target Speaker Extraction with Attention

Coarse-to-Fine Recursive Speech Separation for Unknown Number of Speakers

L-SpEx: Localized Target Speaker Extraction

New Insights on Target Speaker Extraction