Diarization Error Rate

Diarization error rate (DER) quantifies the accuracy of automatically separating and labeling individual speakers in audio recordings, a crucial task in speech processing. Current research focuses on improving DER through advancements in end-to-end neural diarization models, often incorporating techniques like attention mechanisms, transformer architectures, and vector clustering, as well as integrating information from automatic speech recognition and language models. Lowering DER is vital for enhancing applications such as meeting transcription, voice assistants, and forensic audio analysis, driving ongoing efforts to develop more robust and accurate diarization systems.

Papers

November 28, 2021

Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information
Zhihao Du, Shiliang Zhang, Siqi Zheng, Weilong Huang, Ming Lei
Text Modality Speaker Embeddings Speaker Information Neural Diarization Diarization Error Rate Speaker Label Unknown Number

Diarization Error Rate

Papers

Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information