Multi Talker

Multi-talker speech recognition (MTASR) focuses on accurately transcribing speech containing overlapping voices, a significant challenge in automatic speech recognition. Current research heavily emphasizes end-to-end models, often employing transformer-transducer architectures and serialized output training (SOT) to handle the temporal ordering of multiple speakers' utterances, sometimes incorporating speaker diarization or visual cues. These advancements aim to improve the accuracy and efficiency of transcribing conversations and meetings, with implications for applications ranging from virtual assistants to meeting transcription services and improving accessibility for individuals with hearing impairments.

Papers

November 1, 2022

Adapting self-supervised models to multi-talker speech recognition using speaker embeddings
Zili Huang, Desh Raj, Paola García, Sanjeev Khudanpur
Self Supervised Speaker Embeddings Self Supervised Model Target Speaker Extraction Multi Talker Joint Speaker Feature

October 27, 2022

Simulating realistic speech overlaps improves multi-talker ASR
Muqiao Yang, Naoyuki Kanda, Xiaofei Wang, Jian Wu, Sunit Sivasankaran, Zhuo Chen, Jinyu Li, Takuya Yoshioka
Automatic Speech Recognition Multi Speaker Multi Talker Overlapped Speech

October 11, 2022

MFCCA:Multi-Frame Cross-Channel attention for multi-speaker ASR in Multi-party meeting scenario
Fan Yu, Shiliang Zhang, Pengcheng Guo, Yuhao Liang, Zhihao Du, Yuxiao Lin, Lei Xie
Multi Talker Multi Speaker Automatic Speech Recognition Channel Masking Cross Channel Attention Cross Channel

September 12, 2022

VarArray Meets t-SOT: Advancing the State of the Art of Streaming Distant Conversational Speech Recognition
Naoyuki Kanda, Jian Wu, Xiaofei Wang, Zhuo Chen, Jinyu Li, Takuya Yoshioka
Automatic Speech Recognition Speech Recognition Internal State Art Specific Information Multi Talker Multidimensional Array Storage Strategy Time Domain Speech Separation

April 1, 2022

End-to-end multi-talker audio-visual ASR using an active speaker attention module
Richard Rose, Olivier Siohan
Multi Talker Context Attention

March 31, 2022

A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings
Fan Yu, Zhihao Du, Shiliang Zhang, Yuxiao Lin, Lei Xie
Comparative Study ASR Model Multi Talker Speaker Attributed Automatic Speech Recognition

March 30, 2022

Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings
Naoyuki Kanda, Jian Wu, Yu Wu, Xiong Xiao, Zhong Meng, Xiaofei Wang, Yashesh Gaur, Zhuo Chen, Jinyu Li, Takuya Yoshioka
Speaker Identity Speaker Identification ASR Model Multi Talker Speaker Attributed Automatic Speech Recognition

February 2, 2022

Streaming Multi-Talker ASR with Token-Level Serialized Output Training
Naoyuki Kanda, Jian Wu, Yu Wu, Xiong Xiao, Zhong Meng, Xiaofei Wang, Yashesh Gaur, Zhuo Chen, Jinyu Li, Takuya Yoshioka
Multi Talker Serialized Output Training

January 25, 2022

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video
Dmitriy Serdyuk, Otavio Braga, Olivier Siohan
Speech Recognition Video Transformer Audio Visual Speech Recognition Multi Person Multi Talker Audio Visual Video Recognition

January 24, 2022

Endpoint Detection for Streaming End-to-End Multi-talker ASR
Liang Lu, Jinyu Li, Yifan Gong
Speech Recognition System Speech Recognition Model Multi Talker Endpoint Detection

Multi Talker

Papers

Adapting self-supervised models to multi-talker speech recognition using speaker embeddings

Simulating realistic speech overlaps improves multi-talker ASR

MFCCA:Multi-Frame Cross-Channel attention for multi-speaker ASR in Multi-party meeting scenario

VarArray Meets t-SOT: Advancing the State of the Art of Streaming Distant Conversational Speech Recognition

End-to-end multi-talker audio-visual ASR using an active speaker attention module

A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings

Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings

Streaming Multi-Talker ASR with Token-Level Serialized Output Training

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video

Endpoint Detection for Streaming End-to-End Multi-talker ASR