Speaker Similarity

Speaker similarity research focuses on accurately representing and manipulating speaker characteristics in speech signals, primarily aiming to improve speech separation, voice conversion, and text-to-speech (TTS) systems. Current research emphasizes developing robust models, such as those based on transformers, normalizing flows, and diffusion models, that are less sensitive to variations in pitch and other speaker-specific features, even with limited training data. These advancements are crucial for enhancing the performance of various speech technologies, particularly in applications like multi-speaker speech recognition, personalized TTS, and voice cloning, where accurate speaker identification and differentiation are paramount.

Papers

October 18, 2023

DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification
Yuanyuan Wang, Yang Zhang, Zhiyong Wu, Zhihan Yang, Tao Wei, Kun Zou, Helen Meng
Speaker Verification Speaker Embeddings Speaker Similarity Semantic Augmentation Optimal Embeddings

September 6, 2023

Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any Voice Conversion using Only Speech Data
Hyungseob Lim, Kyungguen Byun, Sunkuk Moon, Erik Visser
Voice Conversion Speaker Similarity Source Speech

May 30, 2023

Voice Conversion With Just Nearest Neighbors
Matthew Baas, Benjamin van Niekerk, Herman Kamper
Voice Conversion High Fidelity Vocoder Speaker Similarity Source Speech

March 7, 2023

Multi-Dimensional and Multi-Scale Modeling for Speech Separation Optimized by Discriminative Learning
Zhaoxi Mu, Xinyu Yang, Wenjing Zhu
Speech Separation Speaker Similarity Multiscale Modeling Separation Model Discriminative Learning Speech Separation Model

February 6, 2023

Residual Information in Deep Speaker Embedding Architectures
Adriana Stan
Speech Data Speaker Embeddings Speaker Identity Architecture Perspective Speaker Similarity Discriminative Power Residual Information

November 4, 2022

Speech enhancement using ego-noise references with a microphone array embedded in an unmanned aerial vehicle
Elisa Tengan, Thomas Dietzen, Santiago Ruiz, Mansour Alkmim, João Cardenuto, Toon van Waterschoot
Unmanned Aerial Vehicle Speech Enhancement Microphone Array Speaker Similarity Ego Noise

October 28, 2022

Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation
Nobuyuki Morioka, Heiga Zen, Nanxin Chen, Yu Zhang, Yifan Ding
Text to Speech Speaker Adaptation Multi Speaker Speaker Similarity Neural Tt Shot Speaker

July 11, 2022

Speaker consistency loss and step-wise optimization for semi-supervised joint training of TTS and ASR using unpaired text data
Naoki Makishima, Satoshi Suzuki, Atsushi Ando, Ryo Masumura
Automatic Speech Recognition Synthesized Speech Unpaired Data Speaker Similarity Multi Speaker Text to Speech Joint Semi Supervised

July 1, 2022

Automatic Evaluation of Speaker Similarity
Deja Kamil, Sanchez Ariadna, Roth Julian, Cotescu Marius
Speaker Embeddings Automatic Evaluation Multi Speaker Speaker Similarity

June 28, 2022

RetrieverTTS: Modeling Decomposed Factors for Text-Based Speech Insertion
Dacheng Yin, Chuanxin Tang, Yanqing Liu, Xiaoqiang Wang, Zhiyuan Zhao, Yucheng Zhao, Zhiwei Xiong, Sheng Zhao, Chong Luo
App to App Retrieval Prosodic Feature Key Factor Speaker Similarity Sentence Generation

May 17, 2022

Dynamic Recognition of Speakers for Consent Management by Contrastive Embedding Replay
Arash Shahmansoori, Utz Roedig
Speaker Recognition Contrastive Example Speaker Information Speaker Similarity RePLAy Loss Consent Management

April 8, 2022

Scoring of Large-Margin Embeddings for Speaker Verification: Cosine or PLDA?
Qiongqiong Wang, Kong Aik Lee, Tianchi Liu
Speaker Verification Cross Entropy Loss Speaker Similarity Scoring Property Probabilistic Linear Discriminant Analysis Margin Softmax

April 3, 2022

Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis
Yixuan Zhou, Changhe Song, Xiang Li, Luwen Zhang, Zhiyong Wu, Yanyao Bian, Dan Su, Helen Meng
Fine Grained Speaker Embeddings Speech Encoder Speaker Similarity Text to Speech Synthesis Zero Shot Speaker Adaptation

January 20, 2022

Cross-Lingual Text-to-Speech Using Multi-Task Learning and Speaker Classifier Joint Training
J. Yang, Lei He
Multi Task Learning Text to Speech Speech Synthesis Speaker Verification Multilingual Transformer Speaker Similarity Joint Speaker Feature

December 14, 2021

End-to-end speaker diarization with transformer
Yongquan Lai, Xin Tang, Yuanyuan Fu, Rui Fang
Transformer Based Speaker Diarization Speech Encoder Speaker Similarity Diarization System

November 24, 2021

One-shot Voice Conversion For Style Transfer Based On Speaker Adaptation
Zhichao Wang, Qicong Xie, Tao Li, Hongqiang Du, Lei Xie, Pengcheng Zhu, Mengxiao Bi
Style Transfer Speaker Adaptation Speaker Similarity One Shot Voice Conversion

November 7, 2021

Speaker Generation
Daisy Stanton, Matt Shannon, Soroosh Mariooryad, RJ Skerry-Ryan, Eric Battenberg, Tom Bagby, David Kao
Transfer Learning Speaker Verification Synthetic Voice Speaker Similarity Speaker Generation