Speaker Embeddings

Speaker embeddings are numerical representations of speakers' voices, aiming to capture unique vocal characteristics for tasks like speaker recognition, diarization, and speech synthesis. Current research focuses on improving embedding robustness to noise and variations (e.g., through disentanglement techniques and adversarial training), enhancing their utility in multi-speaker scenarios (e.g., using recursive attention pooling and demultiplexing), and integrating them with other models (e.g., large language models and speech enhancement systems). These advancements have significant implications for improving the accuracy and efficiency of various speech processing applications, including improved privacy-preserving techniques and more natural-sounding speech synthesis.

Papers

February 24, 2023

Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization
Prachi Singh, Amrit Kaul, Sriram Ganapathy
Graph Neural Network Speaker Diarization Speaker Embeddings Hierarchical Clustering Graph Clustering Diarization Result Supervised Clustering

February 23, 2023

A Framework for Unified Real-time Personalized and Non-Personalized Speech Enhancement
Zhepei Wang, Ritwik Giri, Devansh Shah, Jean-Marc Valin, Michael M. Goodwin, Paris Smaragdis
New Framework Speech Enhancement Speaker Embeddings Scalable Personalization Speech Enhancement Network Personalized Speech Enhancement

February 20, 2023

Improving Speech Enhancement via Event-based Query
Yifei Xin, Xiulian Peng, Yan Lu
Speech Enhancement Query Information Speaker Embeddings Speech Quality Sound Event Detection Sound Event

February 6, 2023

Residual Information in Deep Speaker Embedding Architectures
Adriana Stan
Speech Data Speaker Embeddings Speaker Identity Architecture Perspective Speaker Similarity Discriminative Power Residual Information

January 22, 2023

Leveraging Speaker Embeddings with Adversarial Multi-task Learning for Age Group Classification
Kwangje Baeg, Yeong-Gwan Kim, Young-Sub Han, Byoung-Ki Jeon
Multi Task Speaker Embeddings Speaker Recognition Task Discriminative Speaker Age Group Classification

January 16, 2023

Improving Target Speaker Extraction with Sparse LDA-transformed Speaker Embeddings
Kai Liu, Xucheng Wan, Ziqing Du, Huan Zhou
Speaker Verification Many Sparse Speaker Embeddings Target Speaker Extraction Cued Speech Speaker Discriminability

January 11, 2023

Analyzing And Improving Neural Speaker Embeddings for ASR
Christoph Lüscher, Jingjing Xu, Mohammad Zeineldeen, Ralf Schlüter, Hermann Ney
Automatic Speech Recognition Speaker Embeddings Hybrid Automatic Speech Recognition

December 6, 2022

Covariance Regularization for Probabilistic Linear Discriminant Analysis
Zhiyuan Peng, Mingjie Shao, Xuanji He, Xu Li, Tan Lee, Ke Ding, Guanglu Wan
Domain Adaptation Speaker Verification Speaker Embeddings Probabilistic Linear Discriminant Analysis Covariance Regularization

November 16, 2022

Speaker Adaptation for End-To-End Speech Recognition Systems in Noisy Environments
Dominik Wagner, Ilja Baumann, Sebastian P. Bayerl, Korbinian Riedhammer, Tobias Bocklet
Speaker Embeddings Speaker Adaptation Speaker Representation Noisy Environment Speech Recognition Model End to End Speech Recognition

November 15, 2022

Is Style All You Need? Dependencies Between Emotion and GST-based Speaker Recognition
Morgan Sandler, Arun Ross
Speaker Verification Speech Emotion Recognition Underlying Emotion Speaker Embeddings Style Consistency Speaker Recognition Question Based Dependency Speaker Label Speaker Recognition Model

November 4, 2022

SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers
A. Arezzo, S. Berretti
Convolutional Neural Network Vision Transformer Speech Emotion Recognition Speaker Embeddings Speech Signal Cross Corpus Speech Emotion Recognition Compact Convolutional Transformer

November 1, 2022

Adapting self-supervised models to multi-talker speech recognition using speaker embeddings
Zili Huang, Desh Raj, Paola García, Sanjeev Khudanpur
Self Supervised Speaker Embeddings Self Supervised Model Target Speaker Extraction Multi Talker Joint Speaker Feature

October 31, 2022

October 28, 2022

October 24, 2022

Spectral Clustering-aware Learning of Embeddings for Speaker Diarisation
Evonne P. C. Lee, Guangzhi Sun, Chao Zhang, Philip C. Woodland
Jina Embeddings Speaker Embeddings Word Error Rate Spectral Learning Diarization Error Rate

October 23, 2022

October 18, 2022

Mid-attribute speaker generation using optimal-transport-based interpolation of Gaussian mixture models
Aya Watanabe, Shinnosuke Takamichi, Yuki Saito, Detai Xin, Hiroshi Saruwatari
Optimal Transport Gaussian Mixture Model Speaker Embeddings Speaker Characteristic Speaker Independent Speaker Generation

Speaker Embeddings

Papers

Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization

A Framework for Unified Real-time Personalized and Non-Personalized Speech Enhancement

Improving Speech Enhancement via Event-based Query

Residual Information in Deep Speaker Embedding Architectures

Leveraging Speaker Embeddings with Adversarial Multi-task Learning for Age Group Classification

Improving Target Speaker Extraction with Sparse LDA-transformed Speaker Embeddings

Analyzing And Improving Neural Speaker Embeddings for ASR

Covariance Regularization for Probabilistic Linear Discriminant Analysis

Speaker Adaptation for End-To-End Speech Recognition Systems in Noisy Environments

Is Style All You Need? Dependencies Between Emotion and GST-based Speaker Recognition

SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers

Adapting self-supervised models to multi-talker speech recognition using speaker embeddings

Convolution-Based Channel-Frequency Attention for Text-Independent Speaker Verification

Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection

Towards zero-shot Text-based voice editing using acoustic context conditioning, utterance embeddings, and reference encoders

Hierarchical speaker representation for target speaker extraction

Spectral Clustering-aware Learning of Embeddings for Speaker Diarisation

Bootstrapping meaning through listening: Unsupervised learning of spoken sentence embeddings

Quantitative Evidence on Overlooked Aspects of Enrollment Speaker Embeddings for Target Speaker Separation

Mid-attribute speaker generation using optimal-transport-based interpolation of Gaussian mixture models