Target Speech Extraction

Target speech extraction (TSE) aims to isolate a specific speaker's voice from a noisy audio mixture, mimicking the human "cocktail party effect." Current research heavily utilizes deep learning, employing architectures like transformers, diffusion models, and neural beamformers, often incorporating visual cues (e.g., lip movements) or pre-trained self-supervised models to improve accuracy and robustness. This field is significant for advancing human-computer interaction, particularly in robotics and assistive technologies, as well as for improving speech recognition in challenging acoustic environments. Furthermore, research is actively exploring methods to enhance the robustness of TSE systems to variations in speaker characteristics and to minimize false alarms.

Papers

July 25, 2022

ConceptBeam: Concept Driven Target Speech Extraction
Yasunori Ohishi, Marc Delcroix, Tsubasa Ochiai, Shoko Araki, Daiki Takeuchi, Daisuke Niizumi, Akisato Kimura, Noboru Harada, Kunio Kashino
Speech Segment Target Speech Extraction Audio Caption Speech Mixture Modality Independent

June 16, 2022

Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations
Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Takafumi Moriya, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Ryo Masumura
Native Robustness General Strategy Target Speech Extraction Target Speaker Enrollment Utterance Speaker Discriminability Enrollment Prediction

June 10, 2022

Feature Learning and Ensemble Pre-Tasks Based Self-Supervised Speech Denoising and Dereverberation
Yi Li, ShuangLin Li, Yang Sun, Syed Mohsen Naqvi
Speech Enhancement Feature Learning Speech Dereverberation Clean Speech Self Supervised Denoising Monaural Speech Enhancement Target Speech Extraction MultiTask Pre Training

April 11, 2022

Listen only to me! How well can target speech extraction handle false alarms?
Marc Delcroix, Keisuke Kinoshita, Tsubasa Ochiai, Katerina Zmolikova, Hiroshi Sato, Tomohiro Nakatani
Speech Enhancement Speaker Identification Target Speech Extraction Target Speaker False Alarm

April 2, 2022

Improving Target Sound Extraction with Timestamp Information
Helin Wang, Dongchao Yang, Chao Weng, Jianwei Yu, Yuexian Zou
Loss Function Target Speech Extraction Target Sound Extraction Timestamp Annotation Target Sound Detection

November 5, 2021

Target Speech Extraction: Independent Vector Extraction Guided by Supervised Speaker Identification
Jiri Malek, Jakub Jansky, Zbynek Koldovsky, Tomas Kounovsky, Jaroslav Cmejla, Jindrich Zdansky
Speaker Identification Speaker Information Target Speech Extraction Frame Level Independent Vector Blind Algorithm