Multilingual Speech Corpus

Multilingual speech corpora are collections of recorded speech in multiple languages, crucial for developing speech technologies that transcend linguistic boundaries. Current research focuses on improving data quality, creating new corpora for under-resourced languages (including those at risk of extinction), and leveraging techniques like transfer learning and contrastive learning with transformer-based models (e.g., Wav2Vec 2.0) to build robust and generalizable speech recognition and generation systems. These advancements are vital for bridging the digital divide, enabling cross-lingual communication, and fostering research in diverse areas such as phonetics, linguistics, and speech pathology.

Papers

August 12, 2024

FLEURS-R: A Restored Multilingual Speech Corpus for Generation Tasks
Min Ma, Yuma Koizumi, Shigeki Karita, Heiga Zen, Jason Riesa, Haruko Ishikawa, Michiel Bacchiani
Parallel Corpus Generation Task Speech Restoration Speech Generation Task Multilingual Speech Corpus

March 28, 2024

Phonetic Segmentation of the UCLA Phonetics Lab Archive
Eleanor Chodroff, Blaž Pažon, Annie Baker, Steven Moran
International Phonetic Alphabet Speech Component Phoneme Segmentation Multilingual Speech Corpus

November 14, 2023

The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language
Jian Zhu, Changbing Yang, Farhan Samir, Jahurul Islam
Human Language Alignment Problem Open Vocabulary Unseen Language International Phonetic Alphabet Cross Lingual Transferability Multilingual Speech Corpus

August 29, 2023

Robust Open-Set Spoken Language Identification and the CU MultiLang Dataset
Mustafa Eyceoz, Justin Lee, Siddharth Pittie, Homayoon Beigi
Robust Version Multilingual Dataset Language Identification Multilingual Speech Corpus

June 7, 2023

Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages
Claytone Sikasote, Kalinda Siaminwe, Stanly Mwape, Bangiwe Zulu, Mofya Phiri, Martin Phiri, David Zulu, Mayumbo Nyirenda, Antonios Anastasopoulos
African Language Speech Recognition Model Multilingual Speech Multilingual Speech Corpus

May 19, 2023

Differentially Private Adapters for Parameter Efficient Acoustic Modeling
Chun-Wei Ho, Chao-Han Huck Yang, Sabato Marco Siniscalchi
Differential Privacy Adapter Module Frozen Pre Trained Spatial Acoustic Frozen Pre Trained Language Model Multilingual Speech Corpus

July 12, 2022

Huqariq: A Multilingual Speech Corpus of Native Languages of Peru for Speech Recognition
Rodolfo Zevallos, Luis Camacho, Nelsi Melgarejo
Speech Recognition Large Corpus Human Language Language Identification Speech Corpus Multilingual Speech Corpus

June 19, 2022

Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter Warping
Jenthe Thienpondt, Kris Demuynck
Automatic Speech Recognition Transformer Megatron Decepticons Transfer Learning Speech Recognition Low Resource Speech Corpus Image Warping Multilingual Speech Corpus