Speech Datasets

Speech datasets are crucial for training and evaluating automatic speech recognition (ASR) and text-to-speech (TTS) systems, as well as other speech processing applications like speech emotion recognition. Current research focuses on creating larger, more diverse datasets encompassing various languages, accents, speaking styles (including those with speech impediments), and recording conditions, alongside developing methods to improve data efficiency (e.g., data pruning, self-training) and address biases. These advancements are vital for improving the accuracy and robustness of speech technologies, leading to broader accessibility and applicability across diverse populations and contexts.

Papers

August 24, 2023

Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion
Jordan J. Bird, Ahmad Lotfi
Voice Conversion Speech Detection Speech Datasets Real Time Detection

August 14, 2023

O-1: Self-training with Oracle and 1-best Hypothesis
Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Kartik Audhkhasi
Speech Recognition Self Training Scientific Hypothesis Test Oracle Speech Datasets Biased Training

August 12, 2023

Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding
Kumari Nishu, Minsik Cho, Paul Dixon, Devang Naik
Text Encoder Speech Datasets Homogeneity Bias Phoneme Representation

July 20, 2023

Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition
Weidong Chen, Xiaofen Xing, Peihao Chen, Xiangmin Xu
Emotion Recognition Speech Emotion Recognition Embracing CompAct Speech Datasets Emotional Feature

June 16, 2023

Evaluation of Speech Representations for MOS prediction
Frederico S. Oliveira, Edresson Casanova, Arnaldo Cândido Júnior, Lucas R. S. Gris, Anderson S. Soares, Arlindo R. Galvão Filho
Global Evaluation Speaker Verification Speech Representation Speech Quality Speech Datasets Mo Prediction

May 16, 2023

Towards Speech Dialogue Translation Mediating Speakers of Different Languages
Shuichiro Shimizu, Chenhui Chu, Sheng Li, Sadao Kurohashi
Speech Translation Speech Datasets Different Language Monolingual Text

May 15, 2023

OOD-Speech: A Large Bengali Speech Recognition Dataset for Out-of-Distribution Benchmarking
Fazle Rabbi Rakib, Souhardya Saha Dip, Samiul Alam, Nazia Tasnim, Md. Istiak Hossain Shihab, Md. Nazmuddoha Ansary, Syed Mobassir Hossen, Marsia Haque Meghla, Mamunur Mamun, Farig Sadeque, Sayma Sultana Chowdhury, Tahsin Reasat, Asif Sushmit, Ahmed Imtiaz Humayun
Automatic Speech Recognition Understanding Out of Distribution Speech Datasets Distribution Benchmark

February 12, 2023

ASR Bundestag: A Large-Scale political debate dataset in German
Johannes Wirth, René Peinl
Self Supervised Learning Automatic Speech Recognition Speech Datasets Audio Text Pair

October 29, 2022

Phonemic Representation and Transcription for Speech to Text Applications for Under-resourced Indigenous African Languages: The Case of Kiswahili
Ebbie Awino, Lilian Wanzare, Lawrence Muchemi, Barack Wanjawa, Edward Ombui, Florence Indede, Owen McOnyango, Benard Okal
Speech Analysis Speech Processing African Language Speech Datasets Entire Transcription Process Phonetic Representation

October 24, 2022

ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition
Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
New Benchmark Speech Datasets Speech Benchmark Domain Automatic Speech Recognition

June 27, 2022

SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified Datasets and Multitask Learning
Zuheng Kang, Junqing Peng, Jianzong Wang, Jing Xiao
Emotion Recognition Speech Emotion Recognition Multitask Learning Speech Emotion Speech Datasets

June 20, 2022

The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic Speech Recognition
Jonathan Mukiibi, Andrew Katumba, Joyce Nakatumba-Nabende, Ali Hussein, Josh Meyer
Automatic Speech Recognition Speech Processing Speech Datasets

May 20, 2022

PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit
Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, Dianhai Yu, Yanjun Ma, Liang Huang
Speech Processing Speech Datasets Speech System Speech Processing System

March 31, 2022

Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech Dataset
Zehui Yang, Yifan Chen, Lei Luo, Runyan Yang, Lingxuan Ye, Gaofeng Cheng, Ji Xu, Yaohui Jin, Qingqing Zhang, Pengyuan Zhang, Lei Xie, Yonghong Yan
Conversational Data Speech Datasets Mandarin Speech

February 19, 2022

LPC Augment: An LPC-Based ASR Data Augmentation Algorithm for Low and Zero-Resource Children's Dialects
Alexander Johnson, Ruchao Fan, Robin Morris, Abeer Alwan
Automatic Speech Recognition Low Resource Automatic Speech Recognition Performance Low Priority Speech Datasets Regional Dialect DNN HMM LLM Based Augmentation