Non Autoregressive Text to Speech

Non-autoregressive text-to-speech (TTS) aims to synthesize speech from text significantly faster than traditional autoregressive methods by generating the entire audio output in parallel. Current research focuses on improving the naturalness and speaker similarity of non-autoregressive TTS, employing techniques like diffusion models, masked generative transformers, and variational autoencoders to achieve this goal, often incorporating speaker embeddings and probabilistic duration modeling for enhanced control and realism. These advancements offer the potential for more efficient and versatile speech synthesis applications, particularly in real-time systems and those requiring diverse speaker voices.

Papers

October 29, 2024

Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech
Eric Battenberg, RJ Skerry-Ryan, Daisy Stanton, Soroosh Mariooryad, Matt Shannon, Julian Salazar, David Kao
Text to Speech Robust Version Sequence Model Length Generalization Non Autoregressive Text to Speech

October 9, 2024

F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching
Yushen Chen, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, Jian Zhao, Kai Yu, Xie Chen
Diffusion Transformer Flow Matching Speech Generation Diffusion Based Text Non Autoregressive Text to Speech Fairy Tale

September 14, 2024

E1 TTS: Simple and Fast Non-Autoregressive TTS
Zhijun Liu, Shuai Wang, Pengcheng Zhu, Mengxiao Bi, Haizhou Li
Text to Speech Speaker Similarity Audio Sample Non Autoregressive Text to Speech

September 1, 2024

MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer
Yuancheng Wang, Haoyue Zhan, Liwei Liu, Ruihong Zeng, Haotian Guo, Jiachen Zheng, Qiang Zhang, Xueyao Zhang, Shunsi Zhang, Zhizheng Wu
Zero Shot Text to Speech Masked Generative Audio Token Non Autoregressive Text to Speech

July 1, 2024

Lightweight Zero-shot Text-to-Speech with Mixture of Adapters
Kenichi Fujita, Takanori Ashihara, Marc Delcroix, Yusuke Ijima
Speech Synthesis Mixture Component Speaker Embeddings Adapter Module Zero Shot Text to Speech Non Autoregressive Text to Speech

June 8, 2024

Should you use a probabilistic duration model in TTS? Probably! Especially for spontaneous speech
Shivam Mehta, Harm Lameris, Rajiv Punmiya, Jonas Beskow, Éva Székely, Gustav Eje Henter
Text to Speech Text to Speech Model Spontaneous Speech Non Autoregressive Text to Speech Duration Modelling

June 4, 2024

Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
Philip Anastassiou, Jiawei Chen, Jitong Chen, Yuanzhe Chen, Zhuo Chen, Ziyi Chen, Jian Cong, Lelai Deng, Chuang Ding, Lu Gao, Mingqing Gong, Peisong Huang, Qingqing Huang, Zhiying Huang, Yuanyuan Huo, Dongya Jia, Chumin Li, Feiya Li, Hui Li, Jiaxin Li, Xiaoyang Li, Xingxing Li, Lin Liu, Shouda Liu, Sichao Liu, Xudong Liu, Yuchen Liu, Zhengxi Liu, Lu Lu, Junjie Pan, Xin Wang, Yuping Wang, Yuxuan Wang, Zhen Wei, Jian Wu, Chao Yao, Yifeng Yang, Yuanhao Yi, Junteng Zhang, Qidi Zhang, Shuo Zhang, Wenjie Zhang, Yang Zhang, Zilin Zhao, Dejian Zhong, Xiaobin Zhuang
Text to Speech Speech Generation Single Parent Family Non Autoregressive Text to Speech

January 5, 2024

Pheme: Efficient and Conversational Speech Generation
Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić
High Efficiency Text to Speech Synthesized Speech Speech Generation Non Autoregressive Text to Speech Conversation Generation

July 19, 2023

An analysis on the effects of speaker embedding choice in non auto-regressive TTS
Adriana Stan, Johannah O'Mahony
General Analysis Mixed Effect Speech Synthesis Speech Quality Speaker Identity Value Laden Choice Speech Foundation Model Speech Driven Non Autoregressive Text to Speech

June 2, 2023

Towards Robust FastSpeech 2 by Modelling Residual Multimodality
Fabian Kögel, Bac Nguyen, Fabien Cardinaux
Mel Spectrogram Non Autoregressive Text to Speech Vocoder Model

February 10, 2023

Plan-then-Seam: Towards Efficient Table-to-Text Generation
Liang Li, Ruiying Geng, Chengyang Fang, Bing Li, Can Ma, Binhua Li, Yongbin Li
High Efficiency Faithful Generation Parallel Decoding Autoregressive Decoding Table to Text Sequential Planning Non Autoregressive Text to Speech

July 13, 2022

Controllable and Lossless Non-Autoregressive End-to-End Text-to-Speech
Zhengxi Liu, Qiao Tian, Chenxu Hu, Xudong Liu, Menglin Wu, Yuping Wang, Hang Zhao, Yuxuan Wang
Speech Generation Expressive Speech Synthesis Prosody Modeling Non Autoregressive Text to Speech

May 9, 2022

Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech
Yang Li, Cheng Yu, Guangzhi Sun, Hua Jiang, Fanglei Sun, Weiqin Zu, Ying Wen, Yang Yang, Jun Wang
Text to Speech Prosodic Feature Lung VAE Cross Utterance Non Autoregressive Text to Speech Utterance Information

April 8, 2022

Hierarchical and Multi-Scale Variational Autoencoder for Diverse and Natural Non-Autoregressive Text-to-Speech
Jae-Sung Bae, Jinhyeok Yang, Tae-Jun Bak, Young-Sun Joo
Synthesized Speech Prosodic Feature Diverse Set Text to Speech Model Natural Sounding Speech Non Autoregressive Text to Speech

March 2, 2022

A Multi-Scale Time-Frequency Spectrogram Discriminator for GAN-based Non-Autoregressive TTS
Haohan Guo, Hui Lu, Xixin Wu, Helen Meng
Generative Adversarial Network Time Frequency Neural Vocoder Mel Spectrogram Non Autoregressive Text to Speech