High Fidelity Vocoder

High-fidelity vocoders are neural networks that synthesize high-quality audio waveforms from lower-dimensional acoustic representations, aiming to improve the realism and naturalness of synthetic speech. Current research focuses on enhancing vocoder efficiency and speed through architectural innovations like lightweight GANs and DDSP models, as well as improving audio quality via techniques such as feature smoothing, contrastive learning, and refined discriminators. These advancements have significant implications for applications like text-to-speech synthesis, voice conversion, and speech enhancement, offering improvements in both the speed and quality of audio generation.

Papers

July 3, 2023

An End-to-End Multi-Module Audio Deepfake Generation System for ADD Challenge 2023
Sheng Zhao, Qilong Yuan, Yibo Duan, Zhuoyue Chen
End to End Synthesized Speech Open Challenge Speech Encoder High Fidelity Vocoder Audio Deepfake

June 25, 2023

DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech
Sen Liu, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
Text to Speech Speech Synthesis High Fidelity Vocoder High Fidelity Speech

June 16, 2023

FALL-E: A Foley Sound Synthesis Model and Strategies
Minsung Kang, Sangshin Oh, Hyeongi Moon, Kyungyun Lee, Ben Sangbae Chon
General Strategy Spectrogram Based High Fidelity Vocoder Based Model Audio Spectrogram Foley Sound

June 10, 2023

Vocoder-Free Non-Parallel Conversion of Whispered Speech With Masked Cycle-Consistent Generative Adversarial Networks
Dominik Wagner, Ilja Baumann, Tobias Bocklet
Generative Adversarial Network High Fidelity Vocoder Non Parallel Cycle Consistent Generative Adversarial Network Audio Waveform Whispered Speech

May 30, 2023

April 25, 2023

February 27, 2023

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator
Vladimir Bataev, Roman Korostik, Evgeny Shabalin, Vitaly Lavrukhin, Boris Ginsburg
End to End Synchronous Generator High Fidelity Vocoder Text Only Domain Adaptation

February 13, 2023

Fast and small footprint Hybrid HMM-HiFiGAN based system for speech synthesis in Indian languages
Sudhanshu Srivastava, Ishika Gupta, Anusha Prakash, Jom Kuriakose, Hema A. Murthy
Speech Synthesis System Description Indian Language Hidden Markov Model Mel Spectrogram High Fidelity Vocoder Feature Generation DNN HMM

December 8, 2022

Learning to Dub Movies via Hierarchical Prosody Models
Gaoxiang Cong, Liang Li, Yuankai Qi, Zhengjun Zha, Qi Wu, Wenyu Wang, Bin Jiang, Ming-Hsuan Yang, Qingming Huang
LeArning Abstract Prosodic Feature Speech to Text High Fidelity Vocoder Visual Speech Movie Dubbing

November 4, 2022

Self-Supervised Learning for Speech Enhancement through Synthesis
Bryce Irvin, Marko Stamenovic, Mikolaj Kegler, Li-Chia Yang
Self Supervised Learning Speech Enhancement Speech Synthesis Critical Synthesis Neural Vocoder High Fidelity Vocoder Noise Suppression

November 2, 2022

SIMD-size aware weight regularization for fast neural vocoding on CPU
Hiroki Kanagawa, Yusuke Ijima
Neural Vocoder High Fidelity Vocoder Modern Vocoders Weight Regularization

October 25, 2022

Streaming Parrotron for on-device speech-to-speech conversion
Oleg Rybakov, Fadi Biadsy, Xia Zhang, Liyang Jiang, Phoenix Meadowlark, Shivani Agrawal
Voice Conversion Structured Output High Fidelity Vocoder Online Streaming

August 26, 2022

Mel Spectrogram Inversion with Stable Pitch
Bruno Di Giorgi, Mark Levy, Richard Sharp
Mel Spectrogram High Fidelity Vocoder Modern Vocoders Vocoder Model

August 15, 2022

Towards Parametric Speech Synthesis Using Gaussian-Markov Model of Spectral Envelope and Wavelet-Based Decomposition of F0
Mohammed Salah Al-Radhi, Tamás Gábor Csapó, Csaba Zainkó, Géza Németh
Synthesized Speech Neural Vocoder High Fidelity Vocoder Modern Vocoders Envelope Tracking Wavelet Decomposition Gauss Markov F0 Subband

August 9, 2022

DDSP-based Singing Vocoders: A New Subtractive-based Synthesizer and A Comprehensive Evaluation
Da-Yi Wu, Wen-Yi Hsiao, Fu-Rong Yang, Oscar Friedman, Warren Jackson, Scott Bruzenak, Yi-Wen Liu, Yi-Hsuan Yang
Comprehensive Evaluation High Fidelity Vocoder Modern Vocoders Conditional Music Generation

July 5, 2022

Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice Conversion
Yi Lei, Shan Yang, Jian Cong, Lei Xie, Dan Su
Zero Shot Pre Trained Voice Conversion Speech Generation Zero Shot Text to Speech High Fidelity Vocoder

June 27, 2022

Avocodo: Generative Adversarial Network for Artifact-free Vocoder
Taejun Bak, Junmo Lee, Hanbin Bae, Jinhyeok Yang, Jae-Sung Bae, Young-Sun Joo
Generative Adversarial Network Generative Adversarial Neural Vocoder High Fidelity Vocoder Speech Waveform High Fidelity Speech

June 20, 2022

WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis
Yi Wang, Yi Si
High Efficiency Speech Synthesis Generative Adversarial Neural Vocoder High Fidelity Vocoder Wave Prediction