Discriminative Speaker

Discriminative speaker representation focuses on creating speaker embeddings that effectively distinguish individuals from one another in speech data, crucial for applications like speaker verification and diarization. Current research emphasizes improving the discriminative power of these embeddings through techniques like contrastive learning, often within architectures such as SimCLR and variations of ResNet, and by incorporating attention mechanisms to focus on salient speaker-specific features. These advancements aim to enhance the accuracy and robustness of speaker recognition systems, impacting fields ranging from forensic science to personalized user interfaces.

11papers

Papers

August 28, 2024

Whisper-PMFA: Partial Multi-Scale Feature Aggregation for Speaker Verification using Whisper Models
Yiyang Zhao, Shuai Wang, Guangzhi Sun, Zehua Chen, Chao Zhang, Mingxing Xu, Thomas Fang Zheng
Whisper Encoder Feature Aggregation Whisper Model Automatic Speech Recognition Discriminative Speaker Speaker Verification

April 23, 2024

Additive Margin in Contrastive Self-Supervised Frameworks to Learn Discriminative Speaker Representations
Theo Lepage, Reda Dehak
Contrastive Loss Discriminative Speaker Speaker Verification Contrastive Self Supervised Learning Self Supervised Learning Supervised Contrastive Loss Margin Maximization

February 11, 2024

Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis
Kenichi Fujita, Atsushi Ando, Yusuke Ijima
Speech Pattern Speech Synthesis Speaker Embeddings Phoneme Duration Rhythmic Pattern Discriminative Speaker Speech Analysis

September 23, 2023

Contrastive Speaker Embedding With Sequential Disentanglement
Youzhi Tu, Man-Wai Mak, Jen-Tzung Chien
Contrastive Loss Contrastive Example Discriminative Speaker Contrastive Learning Speaker Embeddings Disentanglement Framework

September 17, 2023

Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding with Sequence-to-Sequence Architecture
Gaobin Yang, Maokui He, Shutong Niu, Ruoyu Wang, Yanyan Yue, Shuangqing Qian, Shilong Wu, Jun Du, Chin-Hui Lee
Conversational Short Phrase Speaker Diarization End to End Multi Speaker Diarization Error Rate Neural Diarization Sequence Modeling Discriminative Speaker

January 22, 2023

Leveraging Speaker Embeddings with Adversarial Multi-task Learning for Age Group Classification
Kwangje Baeg, Yeong-Gwan Kim, Young-Sub Han, Byoung-Ki Jeon
Speaker Recognition Task Age Group Classification Discriminative Speaker Speaker Embeddings Multi Task

October 29, 2022

Discriminative Speaker Representation via Contrastive Learning with Class-Aware Attention in Angular Space
Zhe Li, Man-Wai Mak, Helen Mei-Ling Meng
Class Enhanced Attentive Response Contrastive Loss Discriminative Speaker Contrastive Learning Supervised Contrastive Loss Speaker Verification

August 15, 2022

C3-DINO: Joint Contrastive and Non-contrastive Self-Supervised Learning for Speaker Verification
Chunlei Zhang, Dong Yu
Contrastive Learning Discriminative Speaker Speaker Verification DiNO Mix Joint Framework Contrastive Self Supervised Learning Self Supervised Non Contrastive Self Supervised Learning Speaker Embeddings

August 1, 2022

Global Performance Disparities Between English-Language Accents in Automatic Speech Recognition
Alex DiChristofano, Henry Shuster, Shefali Chandra, Neal Patwari
Discriminative Speaker Accented Speech Performance Disparity Automatic Speech Recognition Automatic Speech Recognition Performance

July 11, 2022

The HCCL System for the NIST SRE21
Zhuo Li, Runqiu Xiao, Hangting Chen, Zhenduo Zhao, Zihan Zhang, Wenchao Wang
Speaker Embeddings Speaker Verification Speaker Recognition Discriminative Speaker

July 10, 2022

Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation Learning
Mufan Sang, John H. L. Hansen
Discriminative Speaker Speaker Representation Channel Attention Frequency Feature Frequency Component Speaker Extraction

Discriminative Speaker

Papers

Whisper-PMFA: Partial Multi-Scale Feature Aggregation for Speaker Verification using Whisper Models

Additive Margin in Contrastive Self-Supervised Frameworks to Learn Discriminative Speaker Representations

Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis

Contrastive Speaker Embedding With Sequential Disentanglement

Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding with Sequence-to-Sequence Architecture

Leveraging Speaker Embeddings with Adversarial Multi-task Learning for Age Group Classification

Discriminative Speaker Representation via Contrastive Learning with Class-Aware Attention in Angular Space

C3-DINO: Joint Contrastive and Non-contrastive Self-Supervised Learning for Speaker Verification

Global Performance Disparities Between English-Language Accents in Automatic Speech Recognition

The HCCL System for the NIST SRE21

Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation Learning