Speech Corpus

Speech corpora are collections of recorded speech data, crucial for training and evaluating automatic speech recognition (ASR) and text-to-speech (TTS) systems. Current research emphasizes creating diverse corpora representing various accents, languages (including low-resource and indigenous languages), speaking styles, and conditions (e.g., disordered speech), often employing self-supervised learning and transformer-based models like Wav2Vec 2.0 and Whisper for improved accuracy and efficiency. These advancements are vital for improving the accessibility and performance of speech technologies across diverse populations and applications, including healthcare, education, and assistive technologies.

Papers

June 26, 2022

Annotated Speech Corpus for Low Resource Indian Languages: Awadhi, Bhojpuri, Braj and Magahi
Ritesh Kumar, Siddharth Singh, Shyam Ratan, Mohit Raj, Sonal Sinha, Bornini Lahiri, Vivek Seshadri, Kalika Bali, Atul Kr. Ojha
Large Corpus Indian Language Speech Recognition System Speech Corpus Low Resource Indian Language Linguistic Data

June 19, 2022

Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter Warping
Jenthe Thienpondt, Kris Demuynck
Automatic Speech Recognition Transformer Megatron Decepticons Transfer Learning Speech Recognition Low Resource Speech Corpus Image Warping Multilingual Speech Corpus

May 6, 2022

Hearing voices at the National Library -- a speech corpus and acoustic model for the Swedish language
Martin Malmsten, Chris Haffenden, Love Börjeson
Automatic Speech Recognition Speech Recognition Text to Speech Easy to Use Library Human VOICE Speech Corpus Acoustic Model

April 22, 2022

LibriS2S: A German-English Speech-to-Speech Translation Corpus
Pedro Jeuris, Jan Niehues
Speech Translation Speech Corpus Text to Speech Model Speech to Speech Translation Speech Translation Corpus

April 6, 2022

EMMT: A simultaneous eye-tracking, 4-electrode EEG and audio corpus for multi-modal reading and translation scenarios
Sunit Bhattacharya, Věra Kloudová, Vilém Zouhar, Ondřej Bojar
Speech Corpus Electroencephalography Recording Visual Stimulus Modal Translation Text Based Cue

March 31, 2022

WavThruVec: Latent speech representation as intermediate features for neural speech synthesis
Hubert Siuzdak, Piotr Dura, Pol van Rijn, Nori Jacoby
Speech Corpus Wav2vec U Neural Speech Synthesis Latent Speech Intermediate Speech Representation

March 28, 2022

On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech Recognition
Mengzhe Geng, Xurong Xie, Rongfeng Su, Jianwei Yu, Zengrui Jin, Tianzi Wang, Shujie Hu, Zi Ye, Helen Meng, Xunying Liu
Speech Corpus Speaker Adaptation Dysarthric Speech

March 7, 2022

Creating Speech-to-Speech Corpus from Dubbed Series
Massa Baali, Wassim El-Hajj, Ahmed Ali
Speech Recognition Parallel Corpus Language Pair Speech Corpus

February 11, 2022

Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer
Yair Kittenplon, Inbal Lavi, Sharon Fogel, Yarin Bar, R. Manmatha, Pietro Perona
Text Detection Speech Corpus Fully Supervised Text Spotting Multi Task Transformer Word Detection

February 9, 2022

SHAS: Approaching optimal Segmentation for End-to-End Speech Translation
Ioannis Tsiamas, Gerard I. Gállego, José A. R. Fonollosa, Marta R. Costa-jussà
Speech Representation Speech Corpus End to End Speech Translation Speech Translation Model Speech Translation Corpus Audio Segmentation Optimal Segmentation

December 17, 2021

JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification
Shinnosuke Takamichi, Ludwig Kürzinger, Takaaki Saeki, Sayaka Shiota, Shinji Watanabe
Automatic Speech Recognition Speech Recognition Large Corpus Speaker Verification Speech Corpus Japanese Text Japanese Corpus

November 12, 2021

Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer in ASR
Ondrej Klejch, Electra Wallington, Peter Bell
Automatic Speech Recognition Cross Lingual Transfer Cross Lingual Spoken Language Understanding Speech Corpus ASR System Semi Supervised Training

November 3, 2021

A Comparative Study of Speaker Role Identification in Air Traffic Communication Using Deep Learning Approaches
Dongyue Guo, Jianwei Zhang, Bo Yang, Yi Lin
Deep Learning Text Modality Comparative Study Speech Corpus Air Traffic Speaker Role

Speech Corpus

Papers

Annotated Speech Corpus for Low Resource Indian Languages: Awadhi, Bhojpuri, Braj and Magahi

Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter Warping

Hearing voices at the National Library -- a speech corpus and acoustic model for the Swedish language

LibriS2S: A German-English Speech-to-Speech Translation Corpus

EMMT: A simultaneous eye-tracking, 4-electrode EEG and audio corpus for multi-modal reading and translation scenarios

WavThruVec: Latent speech representation as intermediate features for neural speech synthesis

On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech Recognition

Creating Speech-to-Speech Corpus from Dubbed Series

Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer

SHAS: Approaching optimal Segmentation for End-to-End Speech Translation

JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification

Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer in ASR

A Comparative Study of Speaker Role Identification in Air Traffic Communication Using Deep Learning Approaches