Zero Shot Text to Speech

Zero-shot text-to-speech (TTS) aims to synthesize speech from unseen speakers using only a short audio sample as a reference, eliminating the need for speaker-specific training data. Current research focuses on improving the naturalness, robustness, and efficiency of these systems, employing various architectures such as diffusion models, flow-matching models, and large language models operating on discrete audio codes. These advancements are significant because they enable more accessible and versatile speech synthesis applications, including personalized voice assistants, audiobook generation, and assistive technologies for individuals with communication impairments. Furthermore, the field is actively addressing challenges like noise robustness and efficient inference for real-world deployment.

Papers

June 9, 2024

An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS
Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Yufei Xia, Jinzhu Li, Sheng Zhao, Jinyu Li, Naoyuki Kanda
Speech Enhancement Zero Shot Text to Speech Noise Robustness Speech Denoising Acoustic Prompt

June 8, 2024

June 7, 2024

XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model
Edresson Casanova, Kelly Davis, Eren Gölge, Görkem Göknar, Iulian Gulea, Logan Hart, Aya Aljafari, Joshua Meyer, Reuben Morais, Samuel Olayemi, Julian Weber
Text to Speech Zero Shot Text to Speech Voice Cloning Multilingual Training

June 6, 2024

Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model
Jinlong Xue, Yayue Deng, Yicheng Han, Yingming Gao, Ya Li
Large Language Model Text to Speech Audio Driven Zero Shot Text to Speech Multimodal Context Text to Speech Synthesis

June 5, 2024

LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
Autoregressive Model Generative Language Model Neural Audio Zero Shot Text to Speech Audio Token Discrete Code

June 3, 2024

ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec
Shengpeng Ji, Jialong Zuo, Wen Wang, Minghui Fang, Siqi Zheng, Qian Chen, Ziyue Jiang, Hai Huang, Zehan Wang, Xize Cheng, Zhou Zhao
Text to Speech Zero Shot Text to Speech Controllable Speech Synthesis Controllable Text to Speech

April 28, 2024

USAT: A Universal Speaker-Adaptive Text-to-Speech Approach
Wenbin Wang, Yang Song, Sanjay Jha
Spatial Audio Zero Shot Text to Speech Zero Shot Speaker Adaptation Adaptive Text to Speech Shot Speaker

April 10, 2024

CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations
Leying Zhang, Yao Qian, Long Zhou, Shujie Liu, Dongmei Wang, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Lei He, Sheng Zhao, Michael Zeng
Dialogue Generation Multi Turn Dialogue Speech Generation Zero Shot Text to Speech Multi Speaker Speech Mixture

April 7, 2024

Cross-Domain Audio Deepfake Detection: Dataset and Analysis
Yuang Li, Min Zhang, Mengxin Ren, Miaomiao Ma, Daimeng Wei, Hao Yang
Data Set General Analysis Zero Shot Text to Speech Synthetic Voice Audio Deepfake Detection Adversarial Augmentation

April 4, 2024

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis
Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao
Language Model Text to Speech Zero Shot Text to Speech Text to Speech Synthesis Codec Language Model

April 3, 2024

CLaM-TTS: Improving Neural Codec Language Model for Zero-Shot Text-to-Speech
Jaehyeon Kim, Keon Lee, Seungjun Chung, Jaewoong Cho
Language Model Zero Shot Text to Speech Neural Audio Zero Shot Text to Speech Codec Language Model Speech Tokenization

March 25, 2024

VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild
Puyuan Peng, Po-Yao Huang, Shang-Wen Li, Abdelrahman Mohamed, David Harwath
Wild Challenge Text to Speech Zero Shot Text to Speech Speech Editing

March 9, 2024

HAM-TTS: Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech with Model and Data Scaling
Chunhui Wang, Chang Zeng, Bowen Zhang, Ziyang Ma, Yefan Zhu, Zifeng Cai, Jian Zhao, Zhonglin Jiang, Yong Chen
Full Model Text to Speech Synthesized Speech Text to Speech Model Zero Shot Text to Speech Zero Shot Voice Conversion Data Scaling

February 15, 2024

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
Hila Manor, Tomer Michaeli
Zero Shot Zero Shot Text to Speech Audio Signal Conditional Denoising Diffusion Audio Domain Text Based Speech Editing

February 14, 2024

MobileSpeech: A Fast and High-Fidelity Framework for Mobile Zero-Shot Text-to-Speech
Shengpeng Ji, Ziyue Jiang, Hanting Wang, Jialong Zuo, Zhou Zhao
High Fidelity Speech Generation Zero Shot Text to Speech Voice Cloning

February 12, 2024

Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like
Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng
Zero Shot Text to Speech Laughter Detection

January 25, 2024

Intelli-Z: Toward Intelligible Zero-Shot TTS
Sunghee Jung, Won Jang, Jaesam Yoon, Bongwan Kim
Text to Speech Speaker Embeddings Zero Shot Text to Speech Multi Speaker Text to Speech Text Pair

January 24, 2024

Scaling NVIDIA's Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages
Akshit Arora, Rohan Badlani, Sungwon Kim, Rafael Valle, Bryan Catanzaro
Text to Speech Generative Adversarial Indian Language Text to Speech Model Zero Shot Text to Speech Speaker Information State of the Art NVIDIA

January 14, 2024

ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided Sequence Reordering
Yakun Song, Zhuo Chen, Xiaofei Wang, Ziyang Ma, Xie Chen
Zero Shot Synthesized Speech Zero Shot Text to Speech Codec Language Model Audio Token

Zero Shot Text to Speech

Papers

An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS

Autoregressive Diffusion Transformer for Text-to-Speech Synthesis

VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model

Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model

LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes

ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec

USAT: A Universal Speaker-Adaptive Text-to-Speech Approach

CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations

Cross-Domain Audio Deepfake Detection: Dataset and Analysis

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

CLaM-TTS: Improving Neural Codec Language Model for Zero-Shot Text-to-Speech

VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild

HAM-TTS: Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech with Model and Data Scaling

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

MobileSpeech: A Fast and High-Fidelity Framework for Mobile Zero-Shot Text-to-Speech

Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

Intelli-Z: Toward Intelligible Zero-Shot TTS

Scaling NVIDIA's Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages

ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided Sequence Reordering