Text Based Speech Editing

Text-based speech editing aims to modify audio recordings by manipulating their corresponding text transcripts, offering a more intuitive and efficient alternative to manual waveform manipulation. Current research focuses on improving the naturalness and fluency of edited speech, often employing neural network architectures like transformers and diffusion models, and incorporating techniques such as context-aware prosody correction and semantic enrichment to enhance intelligibility and consistency. This field is significant for its potential to revolutionize audio and video production, enabling faster and more precise editing while also offering applications in accessibility technologies for individuals with speech impediments.

Papers

September 19, 2024

DiffEditor: Enhancing Speech Editing with Semantic Enrichment and Acoustic Consistency
Yang Chen, Yuhang Jia, Shiwan Zhao, Ziyue Jiang, Haoran Li, Jiarong Kang, Yong Qin
Semantic Enrichment Text Based Speech Editing Speech Editing Phonetic Embeddings

September 11, 2024

SSR-Speech: Towards Stable, Safe and Robust Zero-shot Text-based Speech Editing and Synthesis
Helin Wang, Meng Yu, Jiarui Hai, Chen Chen, Yuchen Hu, Rilin Chen, Najim Dehak, Dong Yu
Zero Shot Speech Analysis Critical Synthesis Neural Codec Text Based Speech Editing

July 24, 2024

Speech Editing -- a Summary
Tobias Kässmann, Yining Liu, Danni Liu
Speech Analysis Prosodic Feature Audio Recording Text Based Speech Editing Speech Editing

July 7, 2024

Fine-Grained and Interpretable Neural Speech Editing
Max Morrison, Cameron Churchwell, Nathan Pruyne, Bryan Pardo
Fine Grained Speech Synthesis Speaker Identity Neural Vocoder Synthetic Voice Text Based Speech Editing

February 15, 2024

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
Hila Manor, Tomer Michaeli
Zero Shot Zero Shot Text to Speech Audio Signal Conditional Denoising Diffusion Audio Domain Text Based Speech Editing

September 21, 2023

FluentEditor: Text-based Speech Editing by Considering Acoustic and Prosody Consistency
Rui Liu, Jiatian Xi, Ziyue Jiang, Haizhou Li
Prosodic Feature Speech Editing Text Based Speech Editing Speech Fluency Fluency Assessment Phonotactic Constraint

July 8, 2023

Toward Interactive Dictation
Belinda Z. Li, Jason Eisner, Adam Pauls, Sam Thomson
Natural Language Question Audio Editing Text Based Speech Editing Long Form Dictation

June 14, 2023

Improving Code-Switching and Named Entity Recognition in ASR with Speech Editing based Data Augmentation
Zheng Liang, Zheshu Song, Ziyang Ma, Chenpeng Du, Kai Yu, Xie Chen
Data Augmentation Automatic Speech Recognition Entity Recognition Text to Speech Code Switching Text Based Speech Editing Speech Editing

May 23, 2023

FluentSpeech: Stutter-Oriented Automatic Speech Editing with Context-Aware Diffusion Models
Ziyue Jiang, Qian Yang, Jialong Zuo, Zhenhui Ye, Rongjie Huang, Yi Ren, Zhou Zhao
Text Based Speech Editing Speech Editing Context Diffusion

April 23, 2023

DiffVoice: Text-to-Speech with Latent Diffusion
Zhijun Liu, Yiwei Guo, Kai Yu
Variational Autoencoder Text to Speech Latent Diffusion Text Based Speech Editing Latent Speech

December 20, 2022

Emotion Selectable End-to-End Text-based Speech Editing
Tao Wang, Jiangyan Yi, Ruibo Fu, Jianhua Tao, Zhengqi Wen, Chu Yuan Zhang
Speech Editing Text Based Speech Editing

October 28, 2022

Towards zero-shot Text-based voice editing using acoustic context conditioning, utterance embeddings, and reference encoders
Jason Fong, Yun Wang, Prabhav Agrawal, Vimal Manohar, Jilong Wu, Thilo Köhler, Qing He
Synthesized Speech Speaker Embeddings Speaker Identity Utterance Level Audio Editing Acoustic Context Text Based Speech Editing

February 21, 2022

CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech Editing
Tao Wang, Jiangyan Yi, Ruibo Fu, Jianhua Tao, Zhengqi Wen
Speaker Adaptation Speech Editing Text Based Speech Editing