Domain Automatic Speech Recognition

Domain-automatic speech recognition (ASR) aims to build robust speech recognition systems capable of accurately transcribing speech across diverse domains and languages, overcoming limitations of traditional models trained on single, homogeneous datasets. Current research emphasizes developing multi-domain models using techniques like self-supervised pre-training (e.g., Wav2Vec 2.0), incorporating language models for improved accuracy, and employing strategies like mixture-of-experts to handle domain shifts effectively. This work is crucial for improving the accessibility and reliability of speech technology, particularly in low-resource settings and applications requiring high accuracy across varied speech styles and acoustic conditions.

Papers

June 17, 2024

GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement
Yifan Yang, Zheshu Song, Jianheng Zhuo, Mingyu Cui, Jinpeng Li, Bo Yang, Yexing Du, Ziyang Ma, Xunying Liu, Ziyuan Wang, Ke Li, Shuai Fan, Kai Yu, Wei-Qiang Zhang, Guoguo Chen, Xie Chen
Language Model Low Resource Language Automatic Speech Recognition Model Entire Transcription Process Low Resource Speech Recognition Web Crawler Domain Automatic Speech Recognition

May 26, 2024

Crossmodal ASR Error Correction with Discrete Speech Units
Yuanchao Li, Pinzhen Chen, Peter Bell, Catherine Lai
Automatic Speech Recognition System Automatic Speech Recognition Error Correction Discrete Speech Unit Domain Automatic Speech Recognition

September 30, 2023

AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR
Tobi Olatunji, Tejumade Afonja, Aditya Yadavalli, Chris Chinenye Emezue, Sahib Singh, Bonaventure F. P. Dossou, Joanne Osuchukwu, Salomey Osei, Atnafu Lambebo Tonja, Naome Etori, Clinton Mbataku
Automatic Speech Recognition Accented Speech Clinical Language Speech Benchmark Domain Automatic Speech Recognition

February 16, 2023

Adaptable End-to-End ASR Models using Replaceable Internal LMs and Residual Softmax
Keqi Deng, Philip C. Woodland
Automatic Speech Recognition Softmax Function Domain Specific Language Model Tuned Lm End 2 End Automatic Speech Domain Automatic Speech Recognition

November 8, 2022

ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications
Juan Zuluaga-Gomez, Karel Veselý, Igor Szöke, Alexander Blatt, Petr Motlicek, Martin Kocour, Mickael Rigault, Khalid Choukri, Amrutha Prasad, Seyyed Saeed Sarfjoo, Iuliia Nigmatulina, Claudia Cevenini, Pavel Kolčárek, Allan Tart, Jan Černocký, Dietrich Klakow
Automatic Speech Recognition Large Corpus Language Understanding Large Scale Dataset Air Traffic Domain Automatic Speech Recognition

October 24, 2022

May 13, 2022

Unified Modeling of Multi-Domain Multi-Device ASR Systems
Soumyajit Mitra, Swayambhu Nath Ray, Bharat Padi, Arunasish Sen, Raghavendra Bilgi, Harish Arsikere, Shalini Ghosh, Ajay Srinivasamurthy, Sri Garimella
Unified Model Domain Specific Model Domain Model Domain Automatic Speech Recognition

March 31, 2022

How Does Pre-trained Wav2Vec 2.0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications
Juan Zuluaga-Gomez, Amrutha Prasad, Iuliia Nigmatulina, Saeed Sarfjoo, Petr Motlicek, Matthias Kleinert, Hartmut Helmke, Oliver Ohneiser, Qingran Zhan
Automatic Speech Recognition Domain Shift Speech Data Benchmark Study Air Traffic Hybrid Automatic Speech Recognition Domain Automatic Speech Recognition

March 9, 2022

A practical framework for multi-domain speech recognition and an instance sampling method to neural language modeling
Yike Zhang, Xiaobing Feng, Yi Liu, Songjun Cao, Long Ma
Automatic Speech Recognition Practical Method Neural Language Model Automatic Speech Recognition System Human Instance Practical Framework Domain Automatic Speech Recognition

Domain Automatic Speech Recognition

Papers

GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement

Crossmodal ASR Error Correction with Discrete Speech Units

AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR

Adaptable End-to-End ASR Models using Replaceable Internal LMs and Residual Softmax

ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications

ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition

Investigating self-supervised, weakly supervised and fully supervised training approaches for multi-domain automatic speech recognition: a study on Bangladeshi Bangla

Unified Modeling of Multi-Domain Multi-Device ASR Systems

How Does Pre-trained Wav2Vec 2.0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications

A practical framework for multi-domain speech recognition and an instance sampling method to neural language modeling