Speaker Representation

Speaker representation focuses on extracting meaningful and discriminative features from speech data to characterize individual speakers. Current research emphasizes unsupervised and self-supervised learning methods, often employing architectures like transformers, conformers, and contrastive learning frameworks, to overcome limitations of data scarcity and improve robustness to noise and speaking style variations. These advancements are crucial for improving performance in various speech applications, including speaker recognition, diarization, voice conversion, and speech synthesis, ultimately leading to more accurate and efficient systems. The development of robust and versatile speaker representations is a key driver of progress in the broader field of speech processing.

Papers

February 16, 2023

ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly Disentangled Self-supervised Speech Representations
Shehzeen Hussain, Paarth Neekhara, Jocelyn Huang, Jason Li, Boris Ginsburg
Adaptive Importance Speech Representation Self Supervised Speech Representation Speaker Representation Zero Shot Voice Conversion Ace Opencpop

February 7, 2023

Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision
Eugene Kharitonov, Damien Vincent, Zalán Borsos, Raphaël Marinier, Sertan Girgin, Olivier Pietquin, Matt Sharifi, Marco Tagliasacchi, Neil Zeghidour
Style PROMPT Speaker Identity Read V Speaker Representation Sequence to Sequence Task Audio Token Discrete Speech Representation

January 10, 2023

Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension
Zhuosheng Zhang, Hai Zhao, Longxiang Liu
Pre Trained Language Model Speaker Representation Dialogue History Utterance Information Dialogue Domain

November 29, 2022

Hiding speaker's sex in speech using zero-evidence speaker representation in an analysis/synthesis pipeline
Paul-Gauthier Noé, Xiaoxiao Miao, Xin Wang, Junichi Yamagishi, Jean-François Bonastre, Driss Matrouf
General Analysis Speech Analysis Voice Conversion Speaker Representation Modern Vocoders Ecapa TDNN Synthesis Procedure

November 16, 2022

Speaker Adaptation for End-To-End Speech Recognition Systems in Noisy Environments
Dominik Wagner, Ilja Baumann, Sebastian P. Bayerl, Korbinian Riedhammer, Tobias Bocklet
Speaker Embeddings Speaker Adaptation Speaker Representation Noisy Environment Speech Recognition Model End to End Speech Recognition

November 1, 2022

Disentangled representation learning for multilingual speaker recognition
Kihyun Nam, Youkyum Kim, Jaesung Huh, Hee Soo Heo, Jee-weon Jung, Joon Son Chung
Speaker Verification Individual Representation Speaker Representation Disentangled Learning Robust Speaker Representation

October 29, 2022

Speaker Representation Learning via Contrastive Loss with Maximal Speaker Separability
Zhe Li, Man-Wai Mak
Contrastive Learning Contrastive Loss Speaker Representation Contrastive Learning Objective Speaker Discriminability

October 28, 2022

October 25, 2022

Disentangled Speech Representation Learning for One-Shot Cross-lingual Voice Conversion Using $\beta$-VAE
Hui Lu, Disong Wang, Xixin Wu, Zhiyong Wu, Xunying Liu, Helen Meng
Disentangled Representation Speaker Representation Speech Representation Disentanglement Lingual Voice Conversion

September 22, 2022

The Microsoft System for VoxCeleb Speaker Recognition Challenge 2022
Gang Liu, Tianyan Zhou, Yong Zhao, Yu Wu, Zhuo Chen, Yao Qian, Jian Wu
Speaker Representation Voxceleb2 Dataset VoxCeleb Speaker Recognition Challenge Window System

July 10, 2022

Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation Learning
Mufan Sang, John H. L. Hansen
Channel Attention Speaker Representation Frequency Feature Speaker Extraction Discriminative Speaker Frequency Component

June 28, 2022

June 26, 2022

Improving the Training Recipe for a Robust Conformer-based Hybrid Model
Mohammad Zeineldeen, Jingjing Xu, Christoph Lüscher, Ralf Schlüter, Hermann Ney
Speech Recognition Speaker Adaptation Speaker Representation Adaptive Training Conformer Model Training Recipe

May 16, 2022

PRISM: Pre-trained Indeterminate Speaker Representation Model for Speaker Diarization and Speaker Verification
Siqi Zheng, Hongbin Suo, Qian Chen
Speaker Verification Speaker Diarization Speaker Embeddings Speaker Representation Instance Selection

April 8, 2022

Self-supervised Speaker Diarization
Yehoshua Dissen, Felix Kreuk, Joseph Keshet
Speaker Verification Speaker Diarization Speaker Embeddings Speaker Representation Self Supervised Speaker Verification

March 30, 2022

Speaker Representation

Papers

ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly Disentangled Self-supervised Speech Representations

Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision

Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension

Hiding speaker's sex in speech using zero-evidence speaker representation in an analysis/synthesis pipeline

Speaker Adaptation for End-To-End Speech Recognition Systems in Noisy Environments

Disentangled representation learning for multilingual speaker recognition

Speaker Representation Learning via Contrastive Loss with Maximal Speaker Separability

A comprehensive study on self-supervised distillation for speaker representation learning

Hierarchical speaker representation for target speaker extraction

Disentangled Speech Representation Learning for One-Shot Cross-lingual Voice Conversion Using $\beta$-VAE

The Microsoft System for VoxCeleb Speaker Recognition Challenge 2022

Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation Learning

A Hierarchical Speaker Representation Framework for One-shot Singing Voice Conversion

Attention-based conditioning methods using variable frame rate for style-robust speaker verification

Improving the Training Recipe for a Robust Conformer-based Hybrid Model

PRISM: Pre-trained Indeterminate Speaker Representation Model for Speaker Diarization and Speaker Verification

Self-supervised Speaker Diarization

Generation of Speaker Representations Using Heterogeneous Training Batch Assembly

Multi-target Extractor and Detector for Unknown-number Speaker Diarization

Multi-scale Speaker Diarization with Dynamic Scale Weighting