Speaker Diarization

Speaker diarization is the task of identifying "who spoke when" in an audio recording, a crucial preprocessing step for many speech applications. Current research focuses on improving accuracy and efficiency, particularly in challenging scenarios like multi-speaker conversations and noisy environments, using techniques such as end-to-end neural networks, spectral clustering, and the integration of audio-visual or semantic information. These advancements are driving progress in areas like meeting transcription, multilingual speech processing, and improving the performance of downstream tasks such as automatic speech recognition.

Papers

October 7, 2022

Mutual Learning of Single- and Multi-Channel End-to-End Neural Diarization
Shota Horiguchi, Yuki Takashima, Shinji Watanabe, Paola Garcia
Speaker Diarization Single Label Mutual Learning End to End Neural Diarization

September 24, 2022

Spatial-aware Speaker Diarization for Multi-channel Multi-party Meeting
Jie Wang, Yuji Liu, Binling Wang, Yiming Zhi, Song Li, Shipeng Xia, Jiayang Zhang, Feng Tong, Lin Li, Qingyang Hong
Sequence to Sequence Speaker Diarization Adaptive Beamforming Meeting Summarization Multi Stream Multi Channel Audio

September 20, 2022

The BUCEA Speaker Diarization System for the VoxCeleb Speaker Recognition Challenge 2022
Ruohua Zhou, Yuxuan Du, Chenlei Hu
Speaker Diarization VoxCeleb Speaker Recognition Challenge Diarization Error Rate

August 27, 2022

Target Speaker Voice Activity Detection with Transformers and Its Integration with End-to-End Neural Diarization
Dongmei Wang, Xiong Xiao, Naoyuki Kanda, Takuya Yoshioka, Jian Wu
Transformer Megatron Decepticons Speaker Diarization Transformer Layer End to End Neural Diarization Target Speaker Voice Activity Detection Cross Speaker

August 17, 2022

The Conversational Short-phrase Speaker Diarization (CSSD) Task: Dataset, Evaluation Metric and Baselines
Gaofeng Cheng, Yifan Chen, Runyan Yang, Qingxuan Li, Zehui Yang, Lingxuan Ye, Pengyuan Zhang, Qingqing Zhang, Lei Xie, Yanmin Qian, Kong Aik Lee, Yonghong Yan
Data Set Evaluation Metric Speaker Diarization Baseline Result Conversational Short Phrase Speaker Diarization

August 5, 2022

July 28, 2022

Utterance-by-utterance overlap-aware neural diarization with Graph-PIT
Keisuke Kinoshita, Thilo von Neumann, Marc Delcroix, Christoph Boeddeker, Reinhold Haeb-Umbach
Speaker Diarization Neural Diarization Diarization System Refined Diarization Graph PIT

July 25, 2022

Unsupervised Speaker Diarization that is Agnostic to Language, Overlap-Aware, and Tuning Free
M. Iftekhar Tanveer, Diego Casabuena, Jussi Karlgren, Rosie Jones
Human Language Human Understanding Speaker Diarization Unsupervised Method Speaker Change Podcast Summary Assessment

July 13, 2022

Online Target Speaker Voice Activity Detection for Speaker Diarization
Weiqing Wang, Qingjian Lin, Ming Li
Speaker Diarization Diarization System Frame Level Target Speaker Voice Activity Detection

July 1, 2022

Speaker Diarization and Identification from Single-Channel Classroom Audio Recording Using Virtual Microphones
Antonio Gomez
Person Identification Speaker Diarization Speaker Identification Single Channel Audio Virtual Microphone

June 17, 2022

Simultaneous Speech Extraction for Multiple Target Speakers under the Meeting Scenarios
Bang Zeng, Hongbing Suo, Yulong Wan, Ming Li
Speaker Diarization Speech Separation Speech Signal Target Speaker Speech Separation Model Meeting Scenario Speech Enhancement Module

June 9, 2022

Audio-video fusion strategies for active speaker detection in meetings
Lionel Pibre, Francisco Madrigal, Cyrille Equoy, Frédéric Lerasle, Thomas Pellegrini, Julien Pinquier, Isabelle Ferrané
Audio Visual Speaker Diarization Human VOICE Active Speaker Detection Meeting Minute Speech Segment

June 6, 2022

Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors
Shota Horiguchi, Shinji Watanabe, Paola Garcia, Yuki Takashima, Yohei Kawaguchi
World Event Speaker Diarization Speaker Information Neural Diarization Unknown Number Different Attractor Speaker Attractor

May 19, 2022

Bi-LSTM Scoring Based Similarity Measurement with Agglomerative Hierarchical Clustering (AHC) for Speaker Diarization
Siddharth S. Nijhawan, Homayoon Beigi
Speaker Diarization Hierarchical Clustering Speech Segment Agglomerative Hierarchical Clustering Spoken Conversation Deep Similarity Audio Segmentation

May 16, 2022

PRISM: Pre-trained Indeterminate Speaker Representation Model for Speaker Diarization and Speaker Verification
Siqi Zheng, Hongbin Suo, Qian Chen
Speaker Verification Speaker Diarization Speaker Embeddings Speaker Representation Instance Selection

April 26, 2022

Reformulating Speaker Diarization as Community Detection With Emphasis On Topological Structure
Siqi Zheng, Hongbin Suo
End to End Speaker Diarization Community Detection Topological Feature Diarization System Special Emphasis

April 24, 2022

Improving the Naturalness of Simulated Conversations for End-to-End Neural Diarization
Natsuo Yamashita, Shota Horiguchi, Takeshi Homma
Speaker Diarization Conversational Context Conversational Dataset Neural Diarization Visual Naturalness End to End Neural Diarization

April 18, 2022

Robust End-to-end Speaker Diarization with Generic Neural Clustering
Chenyu Yang, Yu Wang
Speaker Diarization Neural Diarization End to End Speaker Diarization Neural Clustering

April 8, 2022

Self-supervised Speaker Diarization
Yehoshua Dissen, Felix Kreuk, Joseph Keshet
Speaker Verification Speaker Diarization Speaker Embeddings Speaker Representation Self Supervised Speaker Verification

Speaker Diarization

Papers

Mutual Learning of Single- and Multi-Channel End-to-End Neural Diarization

Spatial-aware Speaker Diarization for Multi-channel Multi-party Meeting

The BUCEA Speaker Diarization System for the VoxCeleb Speaker Recognition Challenge 2022

Target Speaker Voice Activity Detection with Transformers and Its Integration with End-to-End Neural Diarization

The Conversational Short-phrase Speaker Diarization (CSSD) Task: Dataset, Evaluation Metric and Baselines

Chronological Self-Training for Real-Time Speaker Diarization

Robust Acoustic Domain Identification with its Application to Speaker Diarization

Utterance-by-utterance overlap-aware neural diarization with Graph-PIT

Unsupervised Speaker Diarization that is Agnostic to Language, Overlap-Aware, and Tuning Free

Online Target Speaker Voice Activity Detection for Speaker Diarization

Speaker Diarization and Identification from Single-Channel Classroom Audio Recording Using Virtual Microphones

Simultaneous Speech Extraction for Multiple Target Speakers under the Meeting Scenarios

Audio-video fusion strategies for active speaker detection in meetings

Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors

Bi-LSTM Scoring Based Similarity Measurement with Agglomerative Hierarchical Clustering (AHC) for Speaker Diarization

PRISM: Pre-trained Indeterminate Speaker Representation Model for Speaker Diarization and Speaker Verification

Reformulating Speaker Diarization as Community Detection With Emphasis On Topological Structure

Improving the Naturalness of Simulated Conversations for End-to-End Neural Diarization

Robust End-to-end Speaker Diarization with Generic Neural Clustering

Self-supervised Speaker Diarization