Speech Generation

Speech generation research aims to create systems that produce natural-sounding and expressive speech from various inputs, such as text or other audio. Current efforts focus on improving model efficiency and controllability, exploring architectures like autoregressive and non-autoregressive models, flow matching, and diffusion models, often incorporating discrete speech units and leveraging techniques like prompting and knowledge distillation. These advancements are significant for applications ranging from virtual assistants and accessibility tools to creative content generation and voice privacy technologies, driving progress in both speech processing and artificial intelligence.

Papers

June 12, 2024

Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding
Rui Wang, Liping Chen, Kong AiK Lee, Zhen-Hua Ling
Adversarial Perturbation Speech Generation Speech Representation Disentanglement Speech Driven Speaker Characteristic Voice Anonymization

June 11, 2024

The Interspeech 2024 Challenge on Speech Processing Using Discrete Units
Xuankai Chang, Jiatong Shi, Jinchuan Tian, Yuning Wu, Yuxun Tang, Yihan Wu, Shinji Watanabe, Yossi Adi, Xie Chen, Qin Jin
Speech Recognition Challenge Task Speech Processing Multilingual Automatic Speech Recognition Speech Generation Singing Voice Synthesis

June 10, 2024

Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning
Chung-Ming Chien, Andros Tjandra, Apoorv Vyas, Matt Le, Bowen Shi, Wei-Ning Hsu
Generative Model Fine Grained Pre Trained Model Speech Generation BBox Adapter

June 8, 2024

Exploring the Benefits of Tokenization of Discrete Acoustic Units
Avihu Dekel, Raul Fernandez
Language Model Complementary Benefit Speech Generation Language Modeling Grapheme to Phoneme Acoustic Unit

June 5, 2024

Addressing Index Collapse of Large-Codebook Speech Tokenizer with Dual-Decoding Product-Quantized Variational Auto-Encoder
Haohan Guo, Fenglong Xie, Dongchao Yang, Hui Lu, Xixin Wu, Helen Meng
Variational Auto Speech Generation Speech Tokenization Multi Codebook Index Structure Dual Decoder

June 4, 2024

Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
Philip Anastassiou, Jiawei Chen, Jitong Chen, Yuanzhe Chen, Zhuo Chen, Ziyi Chen, Jian Cong, Lelai Deng, Chuang Ding, Lu Gao, Mingqing Gong, Peisong Huang, Qingqing Huang, Zhiying Huang, Yuanyuan Huo, Dongya Jia, Chumin Li, Feiya Li, Hui Li, Jiaxin Li, Xiaoyang Li, Xingxing Li, Lin Liu, Shouda Liu, Sichao Liu, Xudong Liu, Yuchen Liu, Zhengxi Liu, Lu Lu, Junjie Pan, Xin Wang, Yuping Wang, Yuxuan Wang, Zhen Wei, Jian Wu, Chao Yao, Yifeng Yang, Yuanhao Yi, Junteng Zhang, Qidi Zhang, Shuo Zhang, Wenjie Zhang, Yang Zhang, Zilin Zhao, Dejian Zhong, Xiaobin Zhuang
Text to Speech Speech Generation Single Parent Family Non Autoregressive Text to Speech

May 21, 2024

Non-autoregressive real-time Accent Conversion model with voice cloning
Vladimir Nechaev, Sergey Kosyakov
Speech Generation Accented Speech Voice Cloning Accent Conversion

April 22, 2024

Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion
Yingxuan Li, Ryota Hinami, Kiyoharu Aizawa, Yusuke Matsui
Multimodal Fusion Speech Generation Speaker Independent Comic Analysis Comic Datasets Character Classifier

April 13, 2024

Voice Attribute Editing with Text Prompt
Zhengyan Sheng, Yang Ai, Li-Juan Liu, Jia Pan, Zhen-Hua Ling
Speech Generation Speech Feature Voice Characteristic Voice Modification

April 10, 2024

CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations
Leying Zhang, Yao Qian, Long Zhou, Shujie Liu, Dongmei Wang, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Lei He, Sheng Zhao, Michael Zeng
Dialogue Generation Multi Turn Dialogue Speech Generation Zero Shot Text to Speech Multi Speaker Speech Mixture

April 8, 2024

SpeechAlign: Aligning Speech Generation to Human Preferences
Dong Zhang, Zhaowei Li, Shimin Li, Xin Zhang, Pengyu Wang, Yaqian Zhou, Xipeng Qiu
Human Preference Speech Generation Speech Language Model Codec Language Model

March 5, 2024

AttentionStitch: How Attention Solves the Speech Editing Problem
Antonios Alexos, Pierre Baldi
Human Attention Synthesized Speech Speech Generation High Quality Speech Pay Attention User Utterance Speech Editing

March 4, 2024

Fine-Grained Quantitative Emotion Editing for Speech Generation
Sho Inoue, Kun Zhou, Shuai Wang, Haizhou Li
Speech Generation Speech Emotion Emotion Intensity Hierarchical Embeddings

February 27, 2024

High-Fidelity Neural Phonetic Posteriorgrams
Cameron Churchwell, Max Morrison, Bryan Pardo
Speech Generation Speech Synthesizer Phonetic PosteriorGrams

February 19, 2024

Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations
Md Arafat Sultan, Jatin Ganhotra, Ramón Fernandez Astudillo
Question Answering Faithful Generation Speech Generation Structured Document Tree of Thought Open Domain Conversation

February 14, 2024

MobileSpeech: A Fast and High-Fidelity Framework for Mobile Zero-Shot Text-to-Speech
Shengpeng Ji, Ziyue Jiang, Hanting Wang, Jialong Zuo, Zhou Zhao
High Fidelity Speech Generation Zero Shot Text to Speech Voice Cloning

February 9, 2024

GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion Model
Haocheng Liu, Teysir Baoueb, Mathieu Fontaine, Jonathan Le Roux, Gael Richard
Speech Generation Audio Synthesis High Quality Speech State of the Art Diffusion Waveform Generation Griffin Lim Algorithm

February 2, 2024

Natural language guidance of high-fidelity text-to-speech with synthetic annotations
Dan Lyth, Simon King
Natural Language Instruction Speaker Identity Speech Generation Text to Speech Model Speech Language Model Synthetic Annotation

January 31, 2024

SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization
Sangwoo Cho, Kaiqiang Song, Chao Zhao, Xiaoyang Wang, Dong Yu
Multi Turn Dialogue Speech Generation Dialog Summarization

January 30, 2024

SpeechBERTScore: Reference-Aware Automatic Evaluation of Speech Generation Leveraging NLP Evaluation Metrics
Takaaki Saeki, Soumi Maiti, Shinnosuke Takamichi, Shinji Watanabe, Hiroshi Saruwatari
Self Supervised Speech Generation Automatic Evaluation Referring Expression Noisy Evaluation NLP Metric