Speech Generation

Speech generation research aims to create systems that produce natural-sounding and expressive speech from various inputs, such as text or other audio. Current efforts focus on improving model efficiency and controllability, exploring architectures like autoregressive and non-autoregressive models, flow matching, and diffusion models, often incorporating discrete speech units and leveraging techniques like prompting and knowledge distillation. These advancements are significant for applications ranging from virtual assistants and accessibility tools to creative content generation and voice privacy technologies, driving progress in both speech processing and artificial intelligence.

Papers

July 7, 2023

The Ethical Implications of Generative Audio Models: A Systematic Literature Review
Julia Barnett
Systematic Literature Review Speech Generation Generative Audio Ethical Implication Research Ethic

July 3, 2023

ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading
Yujia Xiao, Shaofei Zhang, Xi Wang, Xu Tan, Lei He, Sheng Zhao, Frank K. Soong, Tan Lee
Speech Analysis Speech Generation Expressive Speech Cross Utterance Tt System

June 18, 2023

LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models
Zhichao Wang, Yuanzhe Chen, Lei Xie, Qiao Tian, Yuping Wang
Language Model Zero Shot Voice Conversion Speech Generation Zero Shot Voice Conversion Acoustic Modeling Acoustic Token

June 14, 2023

Feature Normalization for Fine-tuning Self-Supervised Models in Speech Enhancement
Hejung Yang, Hong-Goo Kang
Speech Enhancement Supervised Fine Tuning Speech Generation Pre Trained Representation Pre Trained Speech Model Feature Normalization Speech Enhancement Task

June 7, 2023

Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge
Wenhao Guan, Tao Li, Yishuang Li, Hukai Huang, Qingyang Hong, Lin Li
Variational Autoencoder Style Transfer Text to Speech Speech Generation Diffusion Bridge

June 5, 2023

LipVoicer: Generating Speech from Silent Videos Guided by Lip Reading
Yochai Yemini, Aviv Shamsian, Lior Bracha, Sharon Gannot, Ethan Fetaya
Speech Generation Natural Sounding Speech High Quality Speech Lip Reading Silent Video Lip to Speech

June 3, 2023

SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts
Haibin Wu, Kai-Wei Chang, Yuan-Kuei Wu, Hung-yi Lee
Large Language Model Complex Prompt Speech Generation Speech Language Model Tuned Lm Generative Power

May 31, 2023

Speaking the Language of Your Listener: Audience-Aware Adaptation via Plug-and-Play Theory of Mind
Ece Takmaz, Nicolo' Brandizzi, Mario Giulianelli, Sandro Pezzelle, Raquel Fernández
Language Generation Human Language Human Mind Plug and Play Speech Generation Psycholinguistic Research Listening Effort Linguistic Knowledge Referential Game Text Adaptation

April 25, 2023

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head
Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang, Zhenhui Ye, Yuning Wu, Zhiqing Hong, Jiawei Huang, Jinglin Liu, Yi Ren, Zhou Zhao, Shinji Watanabe
Large Language Model Human Understanding Multimodal LLM Human Head Music Industry Speech Generation Sound Design Multimodal AI Spoken Dialogue

March 7, 2023

Do Prosody Transfer Models Transfer Prosody?
Atli Thor Sigurgeirsson, Simon King
Synthesized Speech Speech Generation Text to Speech Synthesis

March 3, 2023

Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations
Yuma Koizumi, Heiga Zen, Shigeki Karita, Yifan Ding, Kohei Yatabe, Nobuyuki Morioka, Yu Zhang, Wei Han, Ankur Bapna, Michiel Bacchiani
Speech Representation Text Representation Speech Generation Speech Segment Speech Restoration Speech Distortion Unsupervised Speech Enhancement

February 9, 2023

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models
Pengfei Zhu, Chao Pang, Yekun Chai, Lei Li, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu
Diffusion Model Speech Generation Text to Music Generation ERNIE ViLG

December 8, 2022

SpeechLMScore: Evaluating speech generation using speech language model
Soumi Maiti, Yifan Peng, Takaaki Saeki, Shinji Watanabe
Speech Quality Speech Generation Speech Language Model Speech Generation Task

October 19, 2022

A Data-Driven Investigation of Noise-Adaptive Utterance Generation with Linguistic Modification
Anupama Chingacham, Vera Demberg, Dietrich Klakow
Speech Synthesis Speech Intelligibility Speech Generation Paraphrase Generation Speech Perception Language Change

October 12, 2022

Adversarial Speaker-Consistency Learning Using Untranscribed Speech Data for Zero-Shot Multi-Speaker Text-to-Speech
Byoung Jin Choi, Myeonghun Jeong, Minchan Kim, Sung Hwan Mun, Nam Soo Kim
Text to Speech Speech Data Speech Generation Domain Shift Problem Multi Speaker Tt

September 15, 2022

Detecting Synthetic Speech Manipulation in Real Audio Recordings
Md Hafizur Rahman, Martin Graciarena, Diego Castan, Chris Cobo-Kroenke, Mitchell McLaren, Aaron Lawson
Deep Fake Synthesized Speech Speech Generation Audio Recording Synthetic Speech Detection Synthetic Speech Detector

July 13, 2022

Controllable and Lossless Non-Autoregressive End-to-End Text-to-Speech
Zhengxi Liu, Qiao Tian, Chenxu Hu, Xudong Liu, Menglin Wu, Yuping Wang, Hang Zhao, Yuxuan Wang
Speech Generation Expressive Speech Synthesis Prosody Modeling Non Autoregressive Text to Speech

July 5, 2022

Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice Conversion
Yi Lei, Shan Yang, Jian Cong, Lei Xie, Dan Su
Zero Shot Pre Trained Voice Conversion Speech Generation Zero Shot Text to Speech High Fidelity Vocoder

July 2, 2022

Computer-assisted Pronunciation Training -- Speech synthesis is almost all you need
Daniel Korzekwa, Jaime Lorenzo-Trueba, Thomas Drugman, Bozena Kostek
Speech Synthesis Speech Generation Speech Corpus Mispronunciation Detection Pronunciation Training

June 16, 2022

EPG2S: Speech Generation and Speech Enhancement based on Electropalatography and Audio Signals using Multimodal Learning
Li-Chin Chen, Po-Hsun Chen, Richard Tzong-Han Tsai, Yu Tsao
Speech Enhancement Multimodal Learning Speech Signal Speech Generation Audio Signal Electrolaryngeal Speech

Speech Generation

Papers

The Ethical Implications of Generative Audio Models: A Systematic Literature Review

ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading

LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models

Feature Normalization for Fine-tuning Self-Supervised Models in Speech Enhancement

Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge

LipVoicer: Generating Speech from Silent Videos Guided by Lip Reading

SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts

Speaking the Language of Your Listener: Audience-Aware Adaptation via Plug-and-Play Theory of Mind

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

Do Prosody Transfer Models Transfer Prosody?

Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models

SpeechLMScore: Evaluating speech generation using speech language model

A Data-Driven Investigation of Noise-Adaptive Utterance Generation with Linguistic Modification

Adversarial Speaker-Consistency Learning Using Untranscribed Speech Data for Zero-Shot Multi-Speaker Text-to-Speech

Detecting Synthetic Speech Manipulation in Real Audio Recordings

Controllable and Lossless Non-Autoregressive End-to-End Text-to-Speech

Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice Conversion

Computer-assisted Pronunciation Training -- Speech synthesis is almost all you need

EPG2S: Speech Generation and Speech Enhancement based on Electropalatography and Audio Signals using Multimodal Learning