Speech System

Speech systems research focuses on improving the accuracy and efficiency of technologies that process and generate human speech, encompassing tasks like automatic speech recognition (ASR), text-to-speech (TTS), and voice conversion. Current research emphasizes developing robust models, often employing deep learning architectures like ECAPA-TDNN and transformer-based networks, to handle diverse accents, low-resource languages, and noisy environments, often leveraging techniques like transfer learning and synthetic data augmentation. These advancements are crucial for applications ranging from oral history preservation and language revitalization to improving accessibility in online conferencing and creating more inclusive speech technologies.

Papers

April 26, 2024

Speech Technology Services for Oral History Research
Christoph Draxler, Henk van den Heuvel, Arjan van Hessen, Pavel Ircing, Jan Lehečka
Speech Processing Speech Technology Source Text Speech System

December 2, 2023

Rapid Speaker Adaptation in Low Resource Text to Speech Systems using Synthetic Data and Transfer learning
Raviraj Joshi, Nikesh Garera
Synthetic Data Text to Speech Low Resource Formality Transfer Speech to Text Speaker Adaptation Speech System

May 29, 2023

CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice
Juan Zuluaga-Gomez, Sara Ahmed, Danielius Visockas, Cem Subakan
Accented Speech Speech System Accent Classification

January 8, 2023

SpeeChain: A Speech Toolkit for Large-Scale Machine Speech Chain
Heli Qi, Sashi Novitasari, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
Data Augmentation Text to Speech Speech System

November 1, 2022

Unified End-to-End Speech Recognition and Endpointing for Fast and Efficient Speech Systems
Shaan Bijwadia, Shuo-yiin Chang, Bo Li, Tara Sainath, Chao Zhang, Yanzhang He
Automatic Speech Recognition End to End Speech System Endpoint Detection

October 10, 2022

YFACC: A Yor\`ub\'a speech-image dataset for cross-lingual keyword localisation through visual grounding
Kayode Olaleye, Dan Oneata, Herman Kamper
Low Resource Language Visual Grounding Audio Caption Visual Speech Single Speaker Visually Grounded Speech System Keyword Localisation

July 5, 2022

ASR-Generated Text for Language Model Pre-training Applied to Speech Tasks
Valentin Pelloin, Franck Dary, Nicolas Herve, Benoit Favre, Nathalie Camelin, Antoine Laurent, Laurent Besacier
Language Model Text Modality Language Understanding Speech Language Model Speech System Speech Task

July 3, 2022

DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech
Keon Lee, Kyumin Park, Daeyoung Kim
Text to Speech Open Domain Dialogue Dialogue Datasets Multi Speaker Tt Speech System

May 20, 2022

PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit
Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, Dianhai Yu, Yanjun Ma, Liang Huang
Speech Processing Speech Datasets Speech System Speech Processing System

April 15, 2022

Automated speech tools for helping communities process restricted-access corpora for language revival efforts
Nay San, Martijn Bartelds, Tolúlopé Ògúnrèmí, Alison Mount, Ruben Thompson, Michael Higgins, Roy Barker, Jane Simpson, Dan Jurafsky
Automatic Speech Recognition Large Corpus Language Identification Annotated Training Data Small Community Endangered Language Speech System

April 7, 2022

Arabic Text-To-Speech (TTS) Data Preparation
Hala Al Masri, Muhy Eddin Za'ter
Text to Speech Data Preparation Speech System Arabic Text to Speech

March 31, 2022

HiFi-VC: High Quality ASR-Based Voice Conversion
A. Kashkin, I. Karpukhin, S. Shishkin
Speech Recognition Voice Conversion High Quality Speech System Speaker Generation

March 30, 2022

ConferencingSpeech 2022 Challenge: Non-intrusive Objective Speech Quality Assessment (NISQA) Challenge for Online Conferencing Applications
Gaoxiong Yi, Wei Xiao, Yiming Xiao, Babak Naderi, Sebastian Möller, Wafaa Wardah, Gabriel Mittag, Ross Cutler, Zhuohuang Zhang, Donald S. Williamson, Fei Chen, Fuzheng Yang, Shidong Shang
Challenge Task Speech Quality Subjective Quality Non Intrusive Speech Speech System