Streaming Voice Conversion

Streaming voice conversion aims to transform a speaker's voice into another in real-time, overcoming the limitations of non-streaming methods that require processing the entire utterance. Current research focuses on developing efficient streaming architectures, such as those based on Conformers and non-autoregressive transformers, often incorporating techniques like hybrid predictive coding and knowledge distillation to mitigate the lack of future context inherent in streaming processing. These advancements are crucial for real-time applications like voice assistants and live communication systems, improving both the speed and quality of voice conversion.

Papers

September 27, 2023

DualVC 2: Dynamic Masked Convolution for Unified Streaming and Non-Streaming Voice Conversion
Ziqian Ning, Yuepeng Jiang, Pengcheng Zhu, Shuai Wang, Jixun Yao, Lei Xie, Mengxiao Bi
Causal Convolution Streaming Voice Conversion

May 21, 2023

DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding
Ziqian Ning, Yuepeng Jiang, Pengcheng Zhu, Jixun Yao, Shuai Wang, Lei Xie, Mengxiao Bi
Voice Conversion Predictive Coding Streaming Voice Conversion

October 27, 2022

Streaming Voice Conversion Via Intermediate Bottleneck Features And Non-streaming Teacher Guidance
Yuanzhe Chen, Ming Tu, Tang Li, Xin Li, Qiuqiang Kong, Jiaxin Li, Zhichao Wang, Qiao Tian, Yuping Wang, Yuxuan Wang
Automatic Speech Recognition Ultrasonic Vocalization Phonetic PosteriorGrams Streaming Voice Conversion

June 15, 2022

Streaming non-autoregressive model for any-to-many voice conversion
Ziyi Chen, Haoran Miao, Pengyuan Zhang
Voice Conversion High Fidelity Vocoder Streaming Voice Conversion

Streaming Voice Conversion

Papers

DualVC 2: Dynamic Masked Convolution for Unified Streaming and Non-Streaming Voice Conversion

DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding

Streaming Voice Conversion Via Intermediate Bottleneck Features And Non-streaming Teacher Guidance

Streaming non-autoregressive model for any-to-many voice conversion