Speech Encoder

Speech encoders are crucial components in many speech processing systems, aiming to convert raw audio into meaningful representations for downstream tasks like speech recognition, translation, and synthesis. Current research focuses on improving encoder robustness to noise and variations in speaking style, often employing transformer-based architectures and self-supervised learning techniques to achieve better generalization and efficiency. These advancements are driving progress in various applications, including more accurate and natural-sounding speech technologies and improved spoken language understanding in diverse and low-resource settings.

Papers

March 20, 2022

ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis
Jinlong Xue, Yayue Deng, Yichen Han, Ya Li, Jianqing Sun, Jiaen Liang
Speech Synthesis Generative Adversarial Speech Encoder Ecapa TDNN

March 18, 2022

Speaker Embedding-aware Neural Diarization: an Efficient Framework for Overlapping Speech Diarization in Meeting Scenarios
Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhijie Yan
Speaker Embeddings Speech Encoder Efficient Framework Neural Diarization Meeting Scenario

February 26, 2022

Language-Independent Speaker Anonymization Approach using Self-Supervised Pre-Trained Models
Xiaoxiao Miao, Xin Wang, Erica Cooper, Junichi Yamagishi, Natalia Tomashenko
Speech Encoder Speaker Anonymization Self Supervised Pre Trained Model Language Independent Speaker Anonymization

January 26, 2022

Noise-robust voice conversion with domain adversarial training
Hongqiang Du, Lei Xie, Haizhou Li
Adversarial Training Internet Service Domain Speech Encoder Speaker Representation

January 25, 2022

Improving the fusion of acoustic and text representations in RNN-T
Chao Zhang, Bo Li, Zhiyun Lu, Tara N. Sainath, Shuo-yiin Chang
Hybrid Fusion Text Representation Multilingual Automatic Speech Recognition Speech Encoder Mt RNN Recurrent Neural Network Transducer RNN T Training

December 14, 2021

End-to-end speaker diarization with transformer
Yongquan Lai, Xin Tang, Yuanyuan Fu, Rui Fang
Transformer Based Speaker Diarization Speech Encoder Speaker Similarity Diarization System

November 19, 2021

Word-Level Style Control for Expressive, Non-attentive Speech Synthesis
Konstantinos Klapsas, Nikolaos Ellinas, June Sig Sung, Hyoungmin Park, Spyros Raptis
Speech Synthesis Speech Data Prosodic Feature Style Representation Speech Encoder Expressive Speech Expressive Speech Synthesis

November 15, 2021

Metric-based multimodal meta-learning for human movement identification via footstep recognition
Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai
Metric Learning Speech Encoder Human Motion Analysis Multisensory Data Geographical Location Representation

November 7, 2021

Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech
Sung-Feng Huang, Chyi-Jiunn Lin, Da-Rong Liu, Yi-Chen Chen, Hung-yi Lee
Speech Encoder Speaker Adaptation Adaptive Text to Speech