Speech Separation

Speech separation aims to isolate individual voices from a mixture of sounds, a crucial task for applications like hearing aids and voice assistants. Current research emphasizes developing efficient and robust models, focusing on architectures like Transformers and state-space models (e.g., Mamba) to handle complex acoustic environments (noise, reverberation, moving sources) and varying numbers of speakers. This involves creating large, realistic datasets, incorporating visual cues (audio-visual models), and exploring techniques like unsupervised learning and efficient model compression to improve performance and reduce computational demands for real-time applications. Advances in this field directly impact the development of more effective and user-friendly speech technologies.

Papers

March 8, 2022

VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer
Juan F. Montesinos, Venkatesh S. Kadandale, Gloria Haro
Deep Convolutional Neural Network Low Latency Speech Separation Speaker Separation Audio Visual Transformer Audio Visual Speech Separation

March 5, 2022

Audio-visual speech separation based on joint feature representation with cross-modal attention
Junwen Xiong, Peng Zhang, Lei Xie, Wei Huang, Yufei Zha, Yanning Zhang
Audio Visual Speech Separation Cross Modal Attention Joint Representation Cross Modal Fusion Audio Visual Speech Separation

February 8, 2022

MixCycle: Unsupervised Speech Separation via Cyclic Mixture Permutation Invariant Training
Ertuğ Karamatlı, Serap Kırbız
Speech Separation Source Separation Self Supervised Training Mixture Permutation

February 6, 2022

Exploring Self-Attention Mechanisms for Speech Separation
Cem Subakan, Mirco Ravanelli, Samuele Cornell, Francois Grondin, Mirko Bronzi
Deep Convolutional Neural Network Self Attention Speech Enhancement Speech Separation Noisy Reverberant

February 1, 2022

New Insights on Target Speaker Extraction
Mohamed Elminshawi, Wolfgang Mack, Srikanth Raj Chetupalli, Soumitro Chakrabarty, Emanuël A. P. Habets
Speech Separation Target Speaker Extraction Speaker Extraction Input Mixture New Insight Extraction Performance

January 26, 2022

SkiM: Skipping Memory LSTM for Low-Latency Real-Time Continuous Speech Separation
Chenda Li, Lei Yang, Weiqin Wang, Yanmin Qian
Long Short Term Memory Speech Separation Time Domain Speech Separation Block SkiM

December 17, 2021

Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem
Jing Shi, Xuankai Chang, Tomoki Hayashi, Yen-Ju Lu, Shinji Watanabe, Bo Xu
Speech Separation Data Discretization Current Method Input Mixture Exploratory Reformulation Cocktail Party Time Domain Speech Separation Synthesis Model

December 10, 2021

December 4, 2021

Speech Separation Using an Asynchronous Fully Recurrent Convolutional Neural Network
Xiaolin Hu, Kai Li, Weiyi Zhang, Yi Luo, Jean-Marie Lemercier, Timo Gerkmann
Neural Architecture Speech Separation Convolutional Recurrent Asynchronous Architecture

November 18, 2021

A Conformer-based ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement and Speech Separation
Tom O'Malley, Arun Narayanan, Quan Wang, Alex Park, James Walker, Nathan Howard
Automatic Speech Recognition Speech Enhancement Speech Separation Echo Cancellation

November 16, 2021

Single-channel speech separation using Soft-minimum Permutation Invariant Training
Midia Yousefi, John H. L. Hansen
Speech Separation Speech Separation Model Speaker Label Single Channel Speech Separation

November 7, 2021

LiMuSE: Lightweight Multi-modal Speaker Extraction
Qinghua Liu, Yating Huang, Yunzhe Hao, Jiaming Xu, Bo Xu
Speech Separation Temporal Convolutional Network Speaker Extraction Multi Modal Cue Audio Visual Speaker Extraction

Speech Separation

Papers

VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer

Audio-visual speech separation based on joint feature representation with cross-modal attention

MixCycle: Unsupervised Speech Separation via Cyclic Mixture Permutation Invariant Training

Exploring Self-Attention Mechanisms for Speech Separation

New Insights on Target Speaker Extraction

SkiM: Skipping Memory LSTM for Low-Latency Real-Time Continuous Speech Separation

Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem

Directed Speech Separation for Automatic Speech Recognition of Long Form Conversational Speech

DEBACER: a method for slicing moderated debates

Speech Separation Using an Asynchronous Fully Recurrent Convolutional Neural Network

A Conformer-based ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement and Speech Separation

Single-channel speech separation using Soft-minimum Permutation Invariant Training

LiMuSE: Lightweight Multi-modal Speaker Extraction