Low Resource Speech Recognition

Low-resource speech recognition (ASR) focuses on developing accurate speech-to-text systems for languages with limited labeled training data. Current research emphasizes data augmentation techniques, including cross-lingual transfer learning, self-supervised learning (often using Transformer-based architectures like wav2vec 2.0 and HuBERT), and pseudo-labeling of unlabeled data, to improve model performance. These advancements leverage multilingual models, phonetic representations, and techniques like knowledge distillation and curriculum learning to maximize the utility of scarce resources. Successful solutions hold significant potential for broadening access to voice technologies and fostering linguistic diversity in the field of artificial intelligence.

Papers

September 13, 2024

Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages
Yao-Fei Cheng, Li-Wei Chen, Hung-Shin Lee, Hsin-Min Wang
Automatic Speech Recognition Raw Data Global Impact Low Resource Automatic Speech Recognition Performance Low Resource Speech Recognition

September 12, 2024

The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language
Michael Ong, Sean Robertson, Leo Peckham, Alba Jorquera Jimenez de Aberasturi, Paula Arkhangorodsky, Robin Huo, Aman Sakhardande, Mark Hallap, Naomi Nagy, Ewan Dunbar
Speech Recognition Resourced Language Low Resource Speech Recognition Benchmark Environment

July 18, 2024

Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training
Lukuan Dong, Donghong Qin, Fengbo Bai, Fanhua Song, Yan Liu, Chen Xu, Zhijian Ou
Automatic Speech Recognition Speech Recognition Low Resource Multilingual Pretraining Low Resource Speech Recognition

June 17, 2024

GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement
Yifan Yang, Zheshu Song, Jianheng Zhuo, Mingyu Cui, Jinpeng Li, Bo Yang, Yexing Du, Ziyang Ma, Xunying Liu, Ziyuan Wang, Ke Li, Shuai Fan, Kai Yu, Wei-Qiang Zhang, Guoguo Chen, Xie Chen
Language Model Low Resource Language Automatic Speech Recognition Model Entire Transcription Process Low Resource Speech Recognition Web Crawler Domain Automatic Speech Recognition

May 2, 2024

Low-resource speech recognition and dialect identification of Irish in a multi-task framework
Liam Lonergan, Mengjie Qian, Neasa Ní Chiaráin, Christer Gobl, Ailbhe Ní Chasaide
Person Identification Low Resource Encoder Decoder Model Multi TASK Low Resource Speech Recognition DNN HMM

February 3, 2024

Predicting positive transfer for improved low-resource speech recognition using acoustic pseudo-tokens
Nay San, Georgios Paraskevopoulos, Aryaman Arora, Xiluo He, Prabhjot Kaur, Oliver Adams, Dan Jurafsky
Automatic Speech Recognition Automatic Speech Recognition Performance Low Resource Speech Recognition Multilingual Speech Model Backward Transfer Acoustic Token

October 29, 2023

MUST: A Multilingual Student-Teacher Learning approach for low-resource speech recognition
Muhammad Umar Farooq, Rehan Ahmad, Thomas Hain
Knowledge Distillation Automatic Speech Recognition Speech Recognition Low Resource Speech Recognition

October 9, 2023

Improving End-to-End Speech Processing by Efficient Text Data Utilization with Latent Synthesis
Jianqiao Lu, Wenyong Huang, Nianzu Zheng, Xingshan Zeng, Yu Ting Yeung, Xiao Chen
End to End Latent Variable Pre Trained Speech Model Low Resource Speech Recognition E2e Automatic Speech Recognition

August 10, 2023

A Novel Self-training Approach for Low-resource Speech Recognition
Satwinder Singh, Feng Hou, Ruili Wang
Automatic Speech Recognition Low Resource Language Self Training Speech Recognition System Unlabeled Speech Low Resource Speech Recognition

June 14, 2023

Learning Cross-lingual Mappings for Data Augmentation to Improve Low-Resource Speech Recognition
Muhammad Umar Farooq, Thomas Hain
Data Augmentation Low Resource Speech Recognition Multi modEl Fusion DNN HMM Cross Lingual Mapping

May 23, 2023

Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for Low-Resource Speech Recognition with Transducers
Jan Silovsky, Liuhui Deng, Arturo Argueta, Tresi Arvizo, Roger Hsiao, Sasha Kuznietsov, Yiu-Chang Lin, Xiaoqiang Xiao, Yuanyuan Zhang
Speech Recognition System ASR System Cross Lingual Knowledge Transfer Sequence Transducer Low Resource Speech Recognition DNN HMM Iterative Pseudo Labeling

May 19, 2023

July 1, 2022

Improving Low-Resource Speech Recognition with Pretrained Speech Models: Continued Pretraining vs. Semi-Supervised Training
Mitchell DeHaven, Jayadev Billa
Automatic Speech Recognition Audio Data Self Supervised Transformer Pre Trained Speech Model Semi Supervised Training Low Resource Speech Recognition

June 16, 2022

DRAFT: A Novel Framework to Reduce Domain Shifting in Self-supervised Learning and Its Application to Children's ASR
Ruchao Fan, Abeer Alwan
Self Supervised Learning Automatic Speech Recognition Self Supervised Speech Data Nine Year Old Child Novel Framework Speech Model Low Resource Speech Recognition

April 8, 2022

Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition
Qianying Liu, Zhuo Gong, Zhengdong Yang, Yuhang Yang, Sheng Li, Chenchen Ding, Nobuaki Minematsu, Hao Huang, Fei Cheng, Chenhui Chu, Sadao Kurohashi
Softmax Function Low Resource Speech Recognition Low Resource Scenario

February 17, 2022

Curriculum optimization for low-resource speech recognition
Anastasia Kuznetsova, Anurag Kumar, Jennifer Drexler Fox, Francis Tyers
Speech Recognition Model Low Resource Speech Recognition Raw Audio Compression Ratio

November 4, 2021

Voice Conversion Can Improve ASR in Very Low-Resource Settings
Matthew Baas, Herman Kamper
Automatic Speech Recognition Voice Conversion Speech Recognition System Speech Recognition Performance Low Resource Speech Recognition

Low Resource Speech Recognition

Papers

Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages

The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language

Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training

GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement

Low-resource speech recognition and dialect identification of Irish in a multi-task framework

Predicting positive transfer for improved low-resource speech recognition using acoustic pseudo-tokens

MUST: A Multilingual Student-Teacher Learning approach for low-resource speech recognition

Improving End-to-End Speech Processing by Efficient Text Data Utilization with Latent Synthesis

A Novel Self-training Approach for Low-resource Speech Recognition

Learning Cross-lingual Mappings for Data Augmentation to Improve Low-Resource Speech Recognition

Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for Low-Resource Speech Recognition with Transducers

Language-universal phonetic encoder for low-resource speech recognition

Language-Universal Phonetic Representation in Multilingual Speech Pretraining for Low-Resource Speech Recognition

Improving Low-Resource Speech Recognition with Pretrained Speech Models: Continued Pretraining vs. Semi-Supervised Training

DRAFT: A Novel Framework to Reduce Domain Shifting in Self-supervised Learning and Its Application to Children's ASR

Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition

Curriculum optimization for low-resource speech recognition

Voice Conversion Can Improve ASR in Very Low-Resource Settings