Multi Speaker

Multi-speaker research focuses on developing robust systems capable of processing and understanding audio and video containing multiple simultaneous speakers. Current efforts concentrate on improving speech separation and recognition techniques, often employing deep neural networks like Conformers and Transformers, along with innovative training methods such as Serialized Output Training and speaker-aware CTC. These advancements are crucial for applications ranging from meeting transcription and voice assistants to improving accessibility for individuals with hearing impairments, driving significant progress in both speech processing and human-computer interaction.

Papers

June 21, 2022

Rethinking Audio-visual Synchronization for Active Speaker Detection
Abudukelimu Wuerkaixi, You Zhang, Zhiyao Duan, Changshui Zhang
Audio Visual Multi Speaker Active Speaker Detection Linguistic Entrainment

March 30, 2022

Multi-target Extractor and Detector for Unknown-number Speaker Diarization
Chin-Yi Cheng, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang
Speaker Diarization Multi Speaker Speaker Representation Shi Detector Target Extraction Cross Speaker

February 10, 2022

The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party meeting transcription (M2MeT) challenge
Maokui He, Xiang Lv, Weilin Zhou, JingJing Yin, Xiaoqi Zhang, Yuxuan Wang, Shutong Niu, Yuhang Cao, Heng Lu, Jun Du, Chin-Hui Lee
Challenge Task Speaker Diarization Multi Speaker M2MeT Challenge Target Speaker Voice Activity Detection

January 19, 2022

MHTTS: Fast multi-head text-to-speech for spontaneous speech with imperfect transcription
Dabiao Ma, Yitong Zhang, Meng Li, Feng Ye
End to End Synthesized Speech Multi Speaker Spontaneous Speech Multi Speaker Text to Speech Multi Speaker Tt Transcription Error

December 19, 2021

Multi-turn RNN-T for streaming recognition of multi-party speech
Ilya Sklyar, Anna Piunova, Xianrui Zheng, Yulan Liu
Automatic Speech Recognition Recognition Rate Multi Party Multi Speaker Mt RNN Multi Speaker Automatic Speech Recognition

November 19, 2021

Improved Prosodic Clustering for Multispeaker and Speaker-independent Phoneme-level Prosody Control
Myrsini Christidou, Alexandra Vioni, Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, Panos Kakoulidis, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris, Pirros Tsiakoulis
Multi Speaker Prosody Modeling Prosody Control

November 17, 2021

Cross-lingual Low Resource Speaker Adaptation Using Phonological Features
Georgia Maniati, Nikolaos Ellinas, Konstantinos Markopoulos, Georgios Vamvoukakis, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris, Pirros Tsiakoulis
Speaker Verification Multi Speaker Phonological Feature Cross Lingual Text to Speech