ASR Model

Automatic speech recognition (ASR) models aim to accurately transcribe spoken language into text, a task crucial for numerous applications. Current research emphasizes improving model robustness across diverse accents, languages, and noisy environments, often leveraging transformer-based architectures like Wav2Vec 2.0 and Conformer, and incorporating visual information for improved accuracy. Significant efforts focus on addressing biases in ASR models, enhancing efficiency through knowledge distillation and self-supervised learning, and developing methods for low-resource languages. These advancements are driving progress in various fields, including accessibility technologies, human-computer interaction, and language documentation.

Papers

July 13, 2023

Adapting an ASR Foundation Model for Spoken Language Assessment
Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill
Speech Corpus ASR Model Soft Prompt Tuning Spoken Language Assessment ASR Foundation Model

June 28, 2023

Cascaded encoders for fine-tuning ASR models on overlapped speech
Richard Rose, Oscar Chang, Olivier Siohan
Speech Analysis Encoder Side ASR Model Multi Talker

June 11, 2023

Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with Academic Compute
William Chen, Xuankai Chang, Yifan Peng, Zhaoheng Ni, Soumi Maiti, Shinji Watanabe
Self Supervised Learning Self Supervised Pre Trained Speech Processing Knowledge Barrier ASR Model Training Optimization

June 1, 2023

Adapting an Unadaptable ASR System
Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill
Automatic Speech Recognition ASR Model

May 21, 2023

CASA-ASR: Context-Aware Speaker-Attributed ASR
Mohan Shi, Zhihao Du, Qian Chen, Fan Yu, Yangze Li, Shiliang Zhang, Jie Zhang, Li-Rong Dai
ASR Model End 2 End ASR Speech Recognition Error Speaker Attributed Automatic Speech Recognition Contextual Asr

May 18, 2023

ZeroPrompt: Streaming Acoustic Encoders are Zero-Shot Masked LMs
Xingchen Song, Di Wu, Binbin Zhang, Zhendong Peng, Bo Dang, Fuping Pan, Zhiyong Wu
Masked Language Librispeech Speech Recognition ASR Model Tuned Lm

May 5, 2023

Mask The Bias: Improving Domain-Adaptive Generalization of CTC-based ASR with Internal Language Model Estimation
Nilaksh Das, Monica Sunkara, Sravan Bodapati, Jinglun Cai, Devang Kulshreshtha, Jeff Farris, Katrin Kirchhoff
Absolute Stance Bias Mask Frozen DETR ASR Model Internal Language Model

April 20, 2023

Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects
Clement Sicard, Kajetan Pyszkowski, Victor Gillioz
ASR Model ASR System Swiss German

March 25, 2023

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels
Pingchuan Ma, Alexandros Haliassos, Adriana Fernandez-Lopez, Honglie Chen, Stavros Petridis, Maja Pantic
ASR Model Audio Visual Speech Recognition Pre Trained Automatic Speech Recognition Automatic Labeling Automatic Transcription

February 20, 2023

Federated Learning for ASR based on Wav2vec 2.0
Tuan Nguyen, Salima Mdhaffar, Natalia Tomashenko, Jean-François Bonastre, Yannick Estève
Automatic Speech Recognition Speaker Identity Automatic Speech Recognition Performance ASR Model

December 22, 2022

Pushing the performances of ASR models on English and Spanish accents
Pooja Chitkara, Morgane Riviere, Jade Copet, Frank Zhang, Yatharth Saraf
ASR Model Continuous Spanish ASR System Pre Trained Embeddings Auxiliary Loss Textual Model Target Accent

November 3, 2022

Streaming Audio-Visual Speech Recognition with Alignment Regularization
Pingchuan Ma, Niko Moritz, Stavros Petridis, Christian Fuegen, Maja Pantic
Self Attention Connectionist Temporal Classification ASR Model Audio Visual Speech Recognition Alignment Regularization

November 1, 2022

October 31, 2022

Joint Audio/Text Training for Transformer Rescorer of Streaming Speech Recognition
Suyoun Kim, Ke Li, Lucas Kabela, Rongqing Huang, Jiedan Zhu, Ozlem Kalinli, Duc Le
Speech Recognition Text to Text ASR Model Audio Text Joint Audio Streaming End to End

September 8, 2022

Goodness of Pronunciation Pipelines for OOV Problem
Ankit Grover
ASR Model ASR System Processing Pipeline Geographic Feature Pronunciation Level Pronunciation

July 29, 2022

Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge
Alef Iury Siqueira Ferreira, Gustavo dos Reis Oliveira
Automatic Speech Recognition Fine Tuning Speech Recognition Domain Specific Speech Emotion Recognition Challenge Task ASR Model

July 16, 2022

Reducing Geographic Disparities in Automatic Speech Recognition via Elastic Weight Consolidation
Viet Anh Trinh, Pegah Ghahremani, Brian King, Jasha Droppo, Andreas Stolcke, Roland Maas
Automatic Speech Recognition Acoustic Model ASR Model Health Disparity Weight Consolidation Speaker Verification Fairness

June 25, 2022

TEVR: Improving Speech Recognition by Token Entropy Variance Reduction
Hajo Nils Krabbenhöft, Erhardt Barth
Language Model Speech Recognition ASR Model Token Reduction Recognition Pipeline

June 15, 2022

Transformer-based Automatic Speech Recognition of Formal and Colloquial Czech in MALACH Project
Jan Lehečka, Josef V. Psutka, Josef Psutka
Language Model End to End ASR Model ASR System Transformer Based Automatic Speech Recognition Internet Slang