Speech Corpus

Speech corpora are collections of recorded speech data, crucial for training and evaluating automatic speech recognition (ASR) and text-to-speech (TTS) systems. Current research emphasizes creating diverse corpora representing various accents, languages (including low-resource and indigenous languages), speaking styles, and conditions (e.g., disordered speech), often employing self-supervised learning and transformer-based models like Wav2Vec 2.0 and Whisper for improved accuracy and efficiency. These advancements are vital for improving the accessibility and performance of speech technologies across diverse populations and applications, including healthcare, education, and assistive technologies.

Papers

April 14, 2023

OpenAssistant Conversations -- Democratizing Large Language Model Alignment
Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Richárd Nagyfi, Shahul ES, Sameer Suri, David Glushkov, Arnav Dantuluri, Andrew Maguire, Christoph Schuhmann, Huu Nguyen, Alexander Mattick
Large Language Model Speech Corpus Large Language Model Alignment Open Domain Conversation Dialog Tree

March 15, 2023

A large-scale multimodal dataset of human speech recognition
Yao Ge, Chong Tang, Haobo Li, Zikang Zhang, Wenda Li, Kevin Chetty, Daniele Faccio, Qammer H. Abbasi, Muhammad Imran
Speech Recognition Speech Corpus Speech Recording Lip Reading Large Scale Multimodal Dataset

February 28, 2023

Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition
Shujie Hu, Xurong Xie, Zengrui Jin, Mengzhe Geng, Yi Wang, Mingyu Cui, Jiajun Deng, Xunying Liu, Helen Meng
Speech Corpus Dysarthric Speech Pre Trained Automatic Speech Recognition

February 26, 2023

Speech Corpora Divergence Based Unsupervised Data Selection for ASR
Changfeng Gao, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan
Automatic Speech Recognition Speech Corpus Unsupervised Data Selection

December 11, 2022

BASPRO: a balanced script producer for speech corpus collection based on the genetic algorithm
Yu-Wen Chen, Hsin-Min Wang, Yu Tsao
Automatic Speech Recognition Genetic Algorithm Automatic Speech Recognition Model Speech Corpus Mandarin Speech Script Knowledge

November 29, 2022

OK Computer Analysis: An Audio Corpus Study of Radiohead
Nick Collins
Music Information Retrieval Speech Corpus Computational Analysis Audio Analysis BLSP Emo

November 23, 2022

IMaSC -- ICFOSS Malayalam Speech Corpus
Deepa P Gopinath, Thennal D K, Vrinda V Nair, Swaraj K S, Sachin G
Text to Speech Synthesized Speech Speech Corpus Text to Speech Model

November 22, 2022

ArzEn-ST: A Three-way Speech Translation Corpus for Code-Switched Egyptian Arabic - English
Injy Hamed, Nizar Habash, Slim Abdennadher, Ngoc Thang Vu
Speech Translation Speech Corpus Code Switched Speech Translation Corpus

November 3, 2022

A speech corpus for chronic kidney disease
Jihyun Mun, Sunhee Kim, Myeong Ju Kim, Jiwon Ryu, Sejoong Kim, Minhwa Chung
Speech Quality Speech Corpus Chronic Kidney Disease Pathological Speech Voice Characteristic

November 1, 2022

Metric Learning for User-defined Keyword Spotting
Jaemin Jung, Youkyum Kim, Jihwan Park, Youshin Lim, Byeong-Yeol Kim, Youngjoon Jang, Joon Son Chung
Metric Learning Keyword Spotting Speech Corpus Keyword Enrollment

October 27, 2022

Multi-class Detection of Pathological Speech with Latent Features: How does it perform on unseen data?
Dominik Wagner, Ilja Baumann, Franziska Braun, Sebastian P. Bayerl, Elmar Nöth, Korbinian Riedhammer, Tobias Bocklet
Latent Representation Latent Feature Speech Corpus Unseen Data Speech Feature Language Disorder Pathological Speech Detection Class

October 26, 2022

Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection
Kentaro Seki, Shinnosuke Takamichi, Takaaki Saeki, Hiroshi Saruwatari
Text to Speech Speech Data Synthesized Speech Data Selection Speech Corpus Text to Speech Model Text to Speech Synthesis

October 15, 2022

Generating Synthetic Speech from SpokenVocab for Speech Translation
Jinming Zhao, Gholamreza Haffar, Ehsan Shareghi
Text to Speech Speech Translation Speech Corpus Spoken Language

August 25, 2022

Kencorpus: A Kenyan Language Corpus of Swahili, Dholuo and Luhya for Natural Language Processing Tasks
Barack Wanjawa, Lilian Wanzare, Florence Indede, Owen McOnyango, Edward Ombui, Lawrence Muchemi
Natural Language Processing Task Speech Data African Language Speech Corpus

July 18, 2022

CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net for the Single-Corpus and Cross-Corpus Speech Emotion Recognition
Xin-Cheng Wen, Jia-Xin Ye, Yan Luo, Yong Xu, Xuan-Ze Wang, Chang-Li Wu, Kun-Hong Liu
Speech Emotion Recognition Formality Transfer Speech Corpus CapsNet Model Cross Corpus Mixed Attention Cross Corpus Speech Emotion Recognition

July 17, 2022

A Spoken Drug Prescription Dataset in French for Spoken Language Understanding
Ali Can Kocabiyikoglu, François Portet, Prudence Gibert, Hervé Blanchon, Jean-Marc Babouchkine, Gaëtan Gavazzi
Spoken Language Understanding Speech Corpus Spoken Dialogue Medical Dialogue System Medical Corpus

July 12, 2022

Huqariq: A Multilingual Speech Corpus of Native Languages of Peru for Speech Recognition
Rodolfo Zevallos, Luis Camacho, Nelsi Melgarejo
Speech Recognition Large Corpus Human Language Language Identification Speech Corpus Multilingual Speech Corpus

July 2, 2022

Computer-assisted Pronunciation Training -- Speech synthesis is almost all you need
Daniel Korzekwa, Jaime Lorenzo-Trueba, Thomas Drugman, Bozena Kostek
Speech Synthesis Speech Generation Speech Corpus Mispronunciation Detection Pronunciation Training

July 1, 2022

Speech Corpus

Papers

OpenAssistant Conversations -- Democratizing Large Language Model Alignment

A large-scale multimodal dataset of human speech recognition

Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition

Speech Corpora Divergence Based Unsupervised Data Selection for ASR

BASPRO: a balanced script producer for speech corpus collection based on the genetic algorithm

OK Computer Analysis: An Audio Corpus Study of Radiohead

IMaSC -- ICFOSS Malayalam Speech Corpus

ArzEn-ST: A Three-way Speech Translation Corpus for Code-Switched Egyptian Arabic - English

A speech corpus for chronic kidney disease

Metric Learning for User-defined Keyword Spotting

Multi-class Detection of Pathological Speech with Latent Features: How does it perform on unseen data?

Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection

Generating Synthetic Speech from SpokenVocab for Speech Translation

Kencorpus: A Kenyan Language Corpus of Swahili, Dholuo and Luhya for Natural Language Processing Tasks

CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net for the Single-Corpus and Cross-Corpus Speech Emotion Recognition

A Spoken Drug Prescription Dataset in French for Spoken Language Understanding

Huqariq: A Multilingual Speech Corpus of Native Languages of Peru for Speech Recognition

Computer-assisted Pronunciation Training -- Speech synthesis is almost all you need

Toward Low-Cost End-to-End Spoken Language Understanding

Vers la compr\'ehension automatique de la parole bout-en-bout \`a moindre effort