Robust Speaker Representation

Robust speaker representation focuses on creating speech embeddings that are resilient to noise, variations in speaking style, and differences in language or recording conditions, enabling accurate speaker identification and verification across diverse scenarios. Current research emphasizes self-supervised learning methods, often employing architectures like HuBERT and variations thereof, along with techniques like disentanglement learning and data augmentation to improve model robustness. These advancements are crucial for improving the accuracy and reliability of various speech technologies, including speaker verification systems, speech recognition, and emotion recognition, particularly in challenging real-world conditions.

Papers

June 30, 2024

Towards Robust Speech Representation Learning for Thousands of Languages
William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe
Self Supervised Cross Lingual Unknown Language Multilingual Speech Speech Technology Robust Speaker Representation

June 17, 2024

Self-Distillation Prototypes Network: Learning Robust Speaker Representations without Supervision
Yafeng Chen, Siqi Zheng, Hui Wang, Luyao Cheng, Qian Chen, Shiliang Zhang, Wen Wang
Self Distillation VoxCeleb Speaker Recognition Challenge Self Supervised Speaker Verification Robust Speaker Representation Robust Speaker Verification

June 9, 2024

MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations
Hemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah
Automatic Speech Recognition Pre Trained Speech Representation Masked Language Librispeech Speech Recognition Robust Speaker Representation Self Supervised Pre Training Method Mismatch Classification

June 4, 2024

Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition
Hao Yen, Pin-Jui Ku, Sabato Marco Siniscalchi, Chin-Hui Lee
Keyword Spotting Spoken Language Robust Speaker Representation

November 27, 2023

Phonetic-aware speaker embedding for far-field speaker verification
Zezhong Jin, Youzhi Tu, Man-Wai Mak
Speaker Verification Speaker Embeddings Speaker Recognition Phonetic Information Joint Audio Robust Speaker Representation Far Field Speaker Verification

November 4, 2023

Learning Disentangled Speech Representations
Yusuf Brima, Ulf Krumnack, Simone Pika, Gunther Heidemann
LeArning Abstract Speech Representation Speech Datasets Robust Speaker Representation

September 14, 2023

Diff-SV: A Unified Hierarchical Framework for Noise-Robust Speaker Verification Using Score-Based Diffusion Probabilistic Models
Ju-ho Kim, Jungwoo Heo, Hyun-seo Shin, Chan-yeong Lim, Ha-Jin Yu
Speech Enhancement Speaker Verification Score Based Diffusion Model Hierarchical Framework Robust Speaker Representation Robust Speaker Verification

September 5, 2023

Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion Recognition
Minh Tran, Yufeng Yin, Mohammad Soleymani
Pre Trained Emotion Recognition Speech Emotion Recognition Speaker Embeddings Robust Speaker Representation Personalized Adaptation

August 5, 2023

Self-Distillation Prototypes Network: Learning Robust Speaker Representations without Supervision
Yafeng Chen, Siqi Zheng, Hui Wang, Luyao Cheng, Qian Chen, Shiliang Zhang, Wen Wang
Self Distillation VoxCeleb Speaker Recognition Challenge Self Supervised Speaker Verification Robust Speaker Representation

November 1, 2022

Disentangled representation learning for multilingual speaker recognition
Kihyun Nam, Youkyum Kim, Jaesung Huh, Hee Soo Heo, Jee-weon Jung, Joon Son Chung
Speaker Verification Individual Representation Speaker Representation Disentangled Learning Robust Speaker Representation

October 28, 2022

December 7, 2021

Robust Speech Representation Learning via Flow-based Embedding Regularization
Woo Hyun Kang, Jahangir Alam, Abderrahim Fathan
Speaker Verification Normalizing Flow Speech Signal Flow Based Speech Processing Task Robust Speaker Representation

Robust Speaker Representation

Papers

Towards Robust Speech Representation Learning for Thousands of Languages

Self-Distillation Prototypes Network: Learning Robust Speaker Representations without Supervision

MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations

Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition

Phonetic-aware speaker embedding for far-field speaker verification

Learning Disentangled Speech Representations

Diff-SV: A Unified Hierarchical Framework for Noise-Robust Speaker Verification Using Score-Based Diffusion Probabilistic Models

Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion Recognition

Self-Distillation Prototypes Network: Learning Robust Speaker Representations without Supervision

Disentangled representation learning for multilingual speaker recognition

Laugh Betrays You? Learning Robust Speaker Representation From Speech Containing Non-Verbal Fragments

Speaker recognition with two-step multi-modal deep cleansing

Robust Speech Representation Learning via Flow-based Embedding Regularization