Multi Speaker

Multi-speaker research focuses on developing robust systems capable of processing and understanding audio and video containing multiple simultaneous speakers. Current efforts concentrate on improving speech separation and recognition techniques, often employing deep neural networks like Conformers and Transformers, along with innovative training methods such as Serialized Output Training and speaker-aware CTC. These advancements are crucial for applications ranging from meeting transcription and voice assistants to improving accessibility for individuals with hearing impairments, driving significant progress in both speech processing and human-computer interaction.

Papers

October 16, 2023

October 9, 2023

A Glance is Enough: Extract Target Sentence By Looking at A keyword
Ying Shi, Dong Wang, Lantian Li, Jiqing Han
Speech Analysis Glance Annotation Cross Attention Mechanism Multi Speaker Spoken Utterance Mixed Speech Keyword Enrollment Extraction Task

September 17, 2023

Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding with Sequence-to-Sequence Architecture
Gaobin Yang, Maokui He, Shutong Niu, Ruoyu Wang, Yanyan Yue, Shuangqing Qian, Shilong Wu, Jun Du, Chin-Hui Lee
End to End Sequence Modeling Multi Speaker Neural Diarization Diarization Error Rate Discriminative Speaker Conversational Short Phrase Speaker Diarization

September 6, 2023

MuLanTTS: The Microsoft Speech Synthesis System for Blizzard Challenge 2023
Zhihang Xu, Shaofei Zhang, Xi Wang, Jiajun Zhang, Wenning Wei, Lei He, Sheng Zhao
Text to Speech Speech Synthesis Speaker Adaptation Multi Speaker Synthetic Voice Single Speaker

September 1, 2023

The FruitShell French synthesis system at the Blizzard 2023 Challenge
Xin Qi, Xiaopeng Wang, Zhiyong Wang, Wang Liu, Mingming Ding, Shuchen Shi
Challenge Task Acoustic Model High Fidelity Vocoder Multi Speaker High Quality Speech Snow Surface

July 31, 2023

VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design
Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim
High Efficiency Adversarial Learning Architecture Design Multi Speaker Natural Sounding Speech Single Stage

June 26, 2023

Factorised Speaker-environment Adaptive Training of Conformer Speech Recognition Systems
Jiajun Deng, Guinan Li, Xurong Xie, Zengrui Jin, Mingyu Cui, Tianzi Wang, Shujie Hu, Mengzhe Geng, Xunying Liu
Automatic Speech Recognition Speaker Adaptation Multi Speaker Speaker Conditioning

May 30, 2023

Adapting Multi-Lingual ASR Models for Handling Multiple Talkers
Chenda Li, Yao Qian, Zhuo Chen, Naoyuki Kanda, Dongmei Wang, Takuya Yoshioka, Yanmin Qian, Michael Zeng
Speech Recognition System Multi Speaker Multi Talker Multilingual Automatic Speech Recognition Model Universal Speech Model

February 20, 2023

A Sidecar Separator Can Convert a Single-Talker Speech Recognition System to a Multi-Talker One
Lingwei Meng, Jiawen Kang, Mingyu Cui, Yuejiao Wang, Xixin Wu, Helen Meng
Automatic Speech Recognition Multi Speaker Pre Trained Automatic Speech Recognition Multi Separator Problem

February 3, 2023

Relating EEG to continuous speech using deep neural networks: a review
Corentin Puffay, Bernd Accou, Lies Bollens, Mohammad Jalilpour Monesi, Jonas Vanthornhout, Hugo Van hamme, Tom Francart
Deep Neural Network Narrative Review Speech Signal Deep Learning Based Continuous Speech Multi Speaker Electroencephalography Recording

January 24, 2023

WhisperWand: Simultaneous Voice and Gesture Tracking Interface
Yang Bai, Irtaza Shahid, Harshvardhan Takawale, Nirupam Roy
State of the Art Whisper Multi Speaker Voice Assistant Voice Authentication Optimal Beacon Training Gesture Classification System

November 29, 2022

On Word Error Rate Definitions and their Efficient Computation for Multi-Speaker Speech Recognition Systems
Thilo von Neumann, Christoph Boeddeker, Keisuke Kinoshita, Marc Delcroix, Reinhold Haeb-Umbach
Structured Output Multi Speaker ASR System Efficient Computation Word Error Rate Multi Speaker Automatic Speech Recognition Meeting Transcript Error Rate

October 28, 2022

Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation
Nobuyuki Morioka, Heiga Zen, Nanxin Chen, Yu Zhang, Yifan Ding
Text to Speech Speaker Adaptation Multi Speaker Speaker Similarity Neural Tt Shot Speaker

October 27, 2022

Simulating realistic speech overlaps improves multi-talker ASR
Muqiao Yang, Naoyuki Kanda, Xiaofei Wang, Jian Wu, Sunit Sivasankaran, Zhuo Chen, Jinyu Li, Takuya Yoshioka
Automatic Speech Recognition Multi Speaker Multi Talker Overlapped Speech

October 12, 2022

Can we use Common Voice to train a Multi-Speaker TTS system?
Sewade Ogun, Vincent Colotte, Emmanuel Vincent
Automatic Speech Recognition Text to Speech Multi Speaker Multi Speaker Text to Speech Common Voice

July 4, 2022

GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion
Magdalena Proszewska, Grzegorz Beringer, Daniel Sáez-Trigueros, Thomas Merritt, Abdelhamid Ezzerg, Roberto Barra-Chicote
Full Model Mel Spectrogram Multi Speaker Conditional Model Speaker Conditioning

July 1, 2022

Automatic Evaluation of Speaker Similarity
Deja Kamil, Sanchez Ariadna, Roth Julian, Cotescu Marius
Speaker Embeddings Automatic Evaluation Multi Speaker Speaker Similarity

June 28, 2022

Multi Speaker

Papers

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism

Real-time Speech Enhancement and Separation with a Unified Deep Neural Network for Single/Dual Talker Scenarios

A Glance is Enough: Extract Target Sentence By Looking at A keyword

Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding with Sequence-to-Sequence Architecture

MuLanTTS: The Microsoft Speech Synthesis System for Blizzard Challenge 2023

The FruitShell French synthesis system at the Blizzard 2023 Challenge

VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design

Factorised Speaker-environment Adaptive Training of Conformer Speech Recognition Systems

Adapting Multi-Lingual ASR Models for Handling Multiple Talkers

A Sidecar Separator Can Convert a Single-Talker Speech Recognition System to a Multi-Talker One

Relating EEG to continuous speech using deep neural networks: a review

WhisperWand: Simultaneous Voice and Gesture Tracking Interface

On Word Error Rate Definitions and their Efficient Computation for Multi-Speaker Speech Recognition Systems

Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation

Simulating realistic speech overlaps improves multi-talker ASR

Can we use Common Voice to train a Multi-Speaker TTS system?

GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion

Automatic Evaluation of Speaker Similarity

Expressive, Variable, and Controllable Duration Modelling in TTS

Speaker Verification in Multi-Speaker Environments Using Temporal Feature Fusion