Automatic Speech Recognition Model

Automatic speech recognition (ASR) models aim to accurately convert spoken language into text, a crucial task with broad applications. Current research emphasizes improving ASR performance in challenging scenarios, such as low-resource languages, accented speech, and noisy environments, often leveraging large language models (LLMs) and techniques like parameter-efficient fine-tuning and self-supervised learning. These advancements are driven by the need for more robust, accurate, and equitable ASR systems across diverse languages and speaker demographics, impacting fields ranging from healthcare to legal proceedings.

Papers

May 2, 2024

Improving Membership Inference in ASR Model Auditing with Perturbed Loss Features
Francisco Teixeira, Karla Pizzi, Raphael Olivier, Alberto Abad, Bhiksha Raj, Isabel Trancoso
Automatic Speech Recognition Automatic Speech Recognition System Automatic Speech Recognition Model Automatic Speech Recognition Performance Membership Inference

April 25, 2024

U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF
Xingchen Song, Di Wu, Binbin Zhang, Dinghao Zhou, Zhendong Peng, Bo Dang, Fuping Pan, Chao Yang
Automatic Speech Recognition Real Time Mixture of Expert Automatic Speech Recognition Model Speech Foundation Model Word Error Rate

March 31, 2024

Houston we have a Divergence: A Subgroup Performance Analysis of ASR Models
Alkis Koudounas, Flavio Giobergia
Automatic Speech Recognition Automatic Speech Recognition System Automatic Speech Recognition Model Inverse Divergence Subgroup Performance

March 13, 2024

Automatic Speech Recognition (ASR) for the Diagnosis of pronunciation of Speech Sound Disorders in Korean children
Taekyung Ahn, Yeonjung Hong, Younggon Im, Do Hyung Kim, Dayoung Kang, Joo Won Jeong, Jae Won Kim, Min Jung Kim, Ah-ra Cho, Dae-Hyun Jang, Hosung Nam
Automatic Speech Recognition Automatic Speech Recognition Model Wav2vec U Speech Sound Disorder Geographic Feature Pronunciation

March 8, 2024

Speech Robust Bench: A Robustness Benchmark For Speech Recognition
Muhammad A. Shah, David Solans Noguero, Mikko A. Heikkila, Bhiksha Raj, Nicolas Kourtellis
Automatic Speech Recognition Speech Recognition Automatic Speech Recognition Model Robustness Benchmark Robust Speech

February 2, 2024

Digits micro-model for accurate and secure transactions
Chirag Chhablani, Nikhita Sharma, Jordan Hosier, Vijay K. Gurbani
Automatic Speech Recognition Model Safe Financial Transaction

January 20, 2024

Word-Level ASR Quality Estimation for Efficient Corpus Sampling and Post-Editing through Analyzing Attentions of a Reference-Free Metric
Golara Javadi, Kamer Ali Yuksel, Yunsu Kim, Thiago Castro Ferreira, Mohamed Al-Badrashiny
Automatic Speech Recognition Automatic Speech Recognition System Automatic Speech Recognition Model Automatic Speech Recognition Performance Quality Estimation Automatic Speech Recognition Hypothesis Post Editing

January 11, 2024

UCorrect: An Unsupervised Framework for Automatic Speech Recognition Error Correction
Jiaxin Guo, Minghan Wang, Xiaosong Qiao, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhengzhe Yu, Yinglu Li, Chang Su, Min Zhang, Shimin Tao, Hao Yang
Automatic Speech Recognition Unsupervised Learning Automatic Speech Recognition Model Pre Trained Automatic Speech Recognition Automatic Speech Recognition Error Correction

December 18, 2023

Improved Long-Form Speech Recognition by Jointly Modeling the Primary and Non-primary Speakers
Guru Prakash Arumugam, Shuo-yiin Chang, Tara N. Sainath, Rohit Prabhavalkar, Quan Wang, Shaan Bijwadia
Importance Aware Automatic Speech Recognition Model Speech Driven Long Form Long Form Deletion Mismatch Classification

December 15, 2023

Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition
Tzu-Ting Yang, Hsin-Wei Wang, Berlin Chen
Speech Recognition Connectionist Temporal Classification Automatic Speech Recognition Model Code Switched Code Switching Speech Recognition Instance Discrimination

December 13, 2023

USM-Lite: Quantization and Sparsity Aware Fine-tuning for Speech Recognition with Universal Speech Models
Shaojin Ding, David Qiu, David Rim, Yanzhang He, Oleg Rybakov, Bo Li, Rohit Prabhavalkar, Weiran Wang, Tara N. Sainath, Zhonglin Han, Jian Li, Amir Yazdanbakhsh, Shivani Agrawal
Automatic Speech Recognition Fine Tuning Speech Recognition Model Compression Quantization Operator Automatic Speech Recognition Model Universal Speech Model

November 29, 2023

End-to-end Joint Punctuated and Normalized ASR with a Limited Amount of Punctuated Training Data
Can Cui (MULTISPEECH), Imran Ahamad Sheikh, Mostafa Sadeghi (MULTISPEECH), Emmanuel Vincent (MULTISPEECH)
Training Data Automatic Speech Recognition Automatic Speech Recognition System Automatic Speech Recognition Model Generating Rich Limited Number

October 25, 2023

CL-MASR: A Continual Learning Benchmark for Multilingual ASR
Luca Della Libera, Pooneh Mousavi, Salah Zaiem, Cem Subakan, Mirco Ravanelli
Multi Task Multilingual Automatic Speech Recognition Automatic Speech Recognition Model Continual Learning Benchmark

October 18, 2023

Unintended Memorization in Large ASR Models, and How to Mitigate It
Lun Wang, Om Thakkar, Rajiv Mathews
Automatic Speech Recognition Limited Memorization Automatic Speech Recognition Model Unintended Memorization Non Autoregressive Automatic Speech Recognition Task Specific Memorization Measure

October 17, 2023

October 10, 2023

Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration
Piyush Singh Pasi, Karthikeya Battepati, Preethi Jyothi, Ganesh Ramakrishnan, Tanmay Mahapatra, Manoj Singh
Case Study Yes No Question Speaker Embeddings Automatic Speech Recognition Model Spoken Text Independent Phone to Audio Alignment Multimodal Data Integration

October 5, 2023

Challenges and Insights: Exploring 3D Spatial Features and Complex Networks on the MISP Dataset
Yiwen Shao
Technical Challenge DCU Insight AQ Speech Processing Complex Network Automatic Speech Recognition Model Multi Talker 3D Spatial

September 26, 2023

Learning from Flawed Data: Weakly Supervised Automatic Speech Recognition
Dongji Gao, Hainan Xu, Desh Raj, Leibny Paola Garcia Perera, Daniel Povey, Sanjeev Khudanpur
LeArning Abstract Automatic Speech Recognition Weak Supervision Automatic Speech Recognition Model Spatio Temporal Learning Speech Text Alignment

September 25, 2023

Connecting Speech Encoder and Large Language Model for ASR
Wenyi Yu, Changli Tang, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
Large Language Model Automatic Speech Recognition Automatic Speech Recognition Model Speech Encoder Open Whisper Style Speech Model

Automatic Speech Recognition Model

Papers

Improving Membership Inference in ASR Model Auditing with Perturbed Loss Features

U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF

Houston we have a Divergence: A Subgroup Performance Analysis of ASR Models

Automatic Speech Recognition (ASR) for the Diagnosis of pronunciation of Speech Sound Disorders in Korean children

Speech Robust Bench: A Robustness Benchmark For Speech Recognition

Digits micro-model for accurate and secure transactions

Word-Level ASR Quality Estimation for Efficient Corpus Sampling and Post-Editing through Analyzing Attentions of a Reference-Free Metric

UCorrect: An Unsupervised Framework for Automatic Speech Recognition Error Correction

Improved Long-Form Speech Recognition by Jointly Modeling the Primary and Non-primary Speakers

Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition

USM-Lite: Quantization and Sparsity Aware Fine-tuning for Speech Recognition with Universal Speech Models

End-to-end Joint Punctuated and Normalized ASR with a Limited Amount of Punctuated Training Data

CL-MASR: A Continual Learning Benchmark for Multilingual ASR

Unintended Memorization in Large ASR Models, and How to Mitigate It

Zipformer: A faster and better encoder for automatic speech recognition

VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System

Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration

Challenges and Insights: Exploring 3D Spatial Features and Complex Networks on the MISP Dataset

Learning from Flawed Data: Weakly Supervised Automatic Speech Recognition

Connecting Speech Encoder and Large Language Model for ASR