Speech Generation

Speech generation research aims to create systems that produce natural-sounding and expressive speech from various inputs, such as text or other audio. Current efforts focus on improving model efficiency and controllability, exploring architectures like autoregressive and non-autoregressive models, flow matching, and diffusion models, often incorporating discrete speech units and leveraging techniques like prompting and knowledge distillation. These advancements are significant for applications ranging from virtual assistants and accessibility tools to creative content generation and voice privacy technologies, driving progress in both speech processing and artificial intelligence.

Papers

January 30, 2024

SpeechBERTScore: Reference-Aware Automatic Evaluation of Speech Generation Leveraging NLP Evaluation Metrics
Takaaki Saeki, Soumi Maiti, Shinnosuke Takamichi, Shinji Watanabe, Hiroshi Saruwatari
Self Supervised Speech Generation Automatic Evaluation Referring Expression Noisy Evaluation NLP Metric

January 25, 2024

Not My Voice! A Taxonomy of Ethical and Safety Harms of Speech Generators
Wiebke Hutiri, Oresiti Papakyriakopoulos, Alice Xiang
Artificial Intelligence Generative AI Comprehensive Taxonomy Speech Generation Human VOICE Synthetic Voice Ethical Behavior Social AI

January 24, 2024

SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation
Dong Zhang, Xin Zhang, Jun Zhan, Shimin Li, Yaqian Zhou, Xipeng Qiu
Speech Model Speech Generation

January 22, 2024

Adversarial speech for voice privacy protection from Personalized Speech generation
Shihao Chen, Liping Chen, Jie Zhang, KongAik Lee, Zhenhua Ling, Lirong Dai
Adversarial Perturbation Speech Synthesis Adversarial Text Speech Generation Voice Privacy Personalized Speech

January 5, 2024

Pheme: Efficient and Conversational Speech Generation
Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić
High Efficiency Text to Speech Synthesized Speech Speech Generation Non Autoregressive Text to Speech Conversation Generation

January 3, 2024

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction
Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Semin Kim, Joun Yeop Lee, Nam Soo Kim
Text to Speech Speech Generation Neural Transducer

December 25, 2023

Audiobox: Unified Audio Generation with Natural Language Prompts
Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu
Generative Model Speech Generation Audio Generation Natural Language Prompt

December 15, 2023

Amphion: An Open-Source Audio, Music and Speech Generation Toolkit
Xueyao Zhang, Liumeng Xue, Yicheng Gu, Yuancheng Wang, Jiaqi Li, Haorui He, Chaoren Wang, Songting Liu, Xi Chen, Junan Zhang, Zihao Fang, Haopeng Chen, Tze Ying Tang, Lexiao Zou, Mingxuan Wang, Jun Han, Kai Chen, Haizhou Li, Zhizheng Wu
Generation Task Music Industry Neural Vocoder Speech Generation Singing Voice Conversion

November 24, 2023

Custom Data Augmentation for low resource ASR using Bark and Retrieval-Based Voice Conversion
Anand Kamble, Aniket Tathe, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra
Data Augmentation Low Resource Automatic Speech Recognition System Speech Generation Common Voice

November 13, 2023

SponTTS: modeling and transferring spontaneous style for TTS
Hanzhao Li, Xinfa Zhu, Liumeng Xue, Yang Song, Yunlin Chen, Lei Xie
Text to Speech Prosodic Feature Style Representation Speech Generation Spontaneous Speech

November 6, 2023

Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic Token Prediction
Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Dongjune Lee, Nam Soo Kim
Text to Speech Speech Generation Neural Transducer Sequence Transducer Current Tt System

October 30, 2023

Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model
Suyeon Lee, Chaeyoung Jung, Youngjoon Jang, Jaehun Kim, Joon Son Chung
Diffusion Model Speech Generation Potential Conversation Outcome Speech Domain Audio Visual Correspondence Audio Visual Speech Separation

October 26, 2023

DiffS2UT: A Semantic Preserving Diffusion Model for Textless Direct Speech-to-Speech Translation
Yongxin Zhu, Zhujin Gao, Xinyuan Zhou, Zhongyi Ye, Linli Xu
Diffusion Model Speech Generation Speech to Speech Translation Discrete Speech Unit

October 23, 2023

Acoustic BPE for Speech Generation with Discrete Tokens
Feiyu Shen, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
Speech Generation Speech Language Model Audio Token

October 2, 2023

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation
Roi Benita, Michael Elad, Joseph Keshet
Language Generation Speech Generation High Fidelity Vocoder Text to Speech Synthesis Speech Waveform AutoRegressive Diffusion

September 14, 2023

Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks
Soumi Maiti, Yifan Peng, Shukjae Choi, Jee-weon Jung, Xuankai Chang, Shinji Watanabe
Self Supervised Speech Recognition Speech Analysis Speech Synthesis Speech Generation Decoder Only Language Model

September 8, 2023

Cross-Utterance Conditioned VAE for Speech Generation
Yang Li, Cheng Yu, Guangzhi Sun, Weiqin Zu, Zheng Tian, Ying Wen, Wei Pan, Chao Zhang, Jun Wang, Yang Yang, Fanglei Sun
Variational Autoencoder Speech Synthesis Speech Generation Cross Utterance Neural Speech Synthesis

September 5, 2023

PromptTTS 2: Describing and Generating Voices with Text Prompt
Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian
Text to Speech Speech Generation Speech Datasets

August 14, 2023

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
Speech Generation Zero Shot Text to Speech Text to Audio Generation Codec Language Model Speech Transformer Generative Speech

July 23, 2023

SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic Spaces
Ivan Vallés-Pérez, Grzegorz Beringer, Piotr Bilinski, Gary Cook, Roberto Barra-Chicote
Speech Generation CLIP Model Speech Domain Contrastive Audio Phonetic Embeddings Speech Generation Task Ferrous Scrap