Automatic Speech Recognition Error

Automatic Speech Recognition (ASR) errors, stemming from inaccuracies in transcribing spoken language to text, significantly hinder the performance of downstream natural language processing tasks. Current research focuses on mitigating these errors through techniques like incorporating ASR confidence scores and phoneme sequences into models, developing error detection and correction mechanisms using sequence-to-sequence models and large language models (LLMs), and employing multimodal fusion to leverage audio information alongside text. Addressing ASR errors is crucial for improving the reliability and accuracy of various applications, including voice assistants, medical transcription, and spoken language understanding systems.

15papers

Papers

January 25, 2025

The Multicultural Medical Assistant: Can LLMs Improve Medical ASR Errors Across Borders?
Ayo Adedeji, Mardhiyah Sanni, Emmanuel Ayodele, Sarita Joshi, Tobi Olatunji
Automatic Speech Recognition Large Language Model Automatic Speech Recognition Error Medical Assistant Border Control Speech Recognition Accuracy

August 26, 2024

MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues
Kuluhan Binici, Abhinav Ramesh Kashyap, Viktor Schlegel, Andy T. Liu, Vijay Prakash Dwivedi, Thanh-Tung Nguyen, Xiaoxue Gao, Nancy F. Chen+1
Medical Dialogue Medical Dialogue Summarization Native Robustness Automatic Speech Recognition Automatic Speech Recognition Error

January 24, 2024

MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction
Jiajun He, Xiaohan Shi, Xingfeng Li, Tomoki Toda
Automatic Speech Recognition Hypothesis Automatic Speech Recognition Error Speech Emotion Recognition Multimodal Fusion ASR Error Correction Automatic Speech Recognition Error Correction

January 12, 2024

Transcending Controlled Environments Assessing the Transferability of ASRRobust NLU Models to Real-World Applications
Hania Khan, Aleena Fatima Khalid, Zaryab Hassan
TinyBERT Model Uncontrolled Environment Automatic Speech Recognition Error Real World Application Automatic Speech Recognition Robust Natural Language Understanding Natural Language Understanding Task Transferability

October 17, 2023

Correction Focused Language Model Training for Speech Recognition
Yingyi Ma, Zhe Liu, Ozlem Kalinli
Automatic Speech Recognition Error Speech Recognition Language Model Automatic Speech Recognition Performance Automatic Speech Recognition

August 15, 2023

Improving CTC-AED model with integrated-CTC and auxiliary loss regularization
Daobin Zhu, Xiangdong Su, Hongbin Zhang
Connectionist Temporal Classification Attention Mechanism Auxiliary Loss Encoder Decoder Automatic Speech Recognition Automatic Speech Recognition Error

June 12, 2023

Multimodal Audio-textual Architecture for Robust Spoken Language Understanding
Anderson R. Avila, Mehdi Rezagholizadeh, Chao Xing
Automatic Speech Recognition Error Audio Language Automatic Speech Recognition

June 11, 2023

Impact of Experiencing Misrecognition by Teachable Agents on Learning and Rapport
Yuya Asano, Diane Litman, Mingzhi Yu, Nikki Lobczowski, Timothy Nokes-Malach, Adriana Kovashka, Erin Walker
LeArning Abstract Teachable Agent Automatic Speech Recognition Error Automatic Speech Recognition Global Impact

June 9, 2023

Record Deduplication for Entity Distribution Modeling in ASR Transcripts
Tianyu Huang, Chung Hoon Hong, Carl Wivagg, Kanna Shimizu
Contextual Biasing Entity Resolution Data Deduplication Automatic Speech Recognition Error Distributional Model

May 22, 2023

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding
Mutian He, Philip N. Garner
Textual Model Automatic Speech Recognition Error Intent Detection Intent Classifier Spoken Language Understanding

November 8, 2022

Robust Unstructured Knowledge Access in Conversational Dialogue with ASR Errors
Yik-Cheung Tam, Jiacheng Xu, Jiakai Zou, Zecheng Wang, Tinglong Liao, Shuhan Yuan
Automatic Speech Recognition Error Automatic Speech Recognition Unstructured Knowledge Spoken Language Understanding

July 22, 2022

ASR Error Detection via Audio-Transcript entailment
Nimshi Venkat Meripo, Sandeep Konam
Automatic Speech Recognition Error Audio Text Pair Transcription Error

March 22, 2022

Building Robust Spoken Language Understanding by Cross Attention between Phoneme Sequence and ASR Hypothesis
Zexun Wang, Yuquan Le, Yi Zhu, Yuming Zhao, Mingchao Feng, Meng Chen, Xiaodong He
Cross Attention Phoneme Sequence Automatic Speech Recognition Error Automatic Speech Recognition Automatic Speech Recognition Hypothesis Spoken Language Understanding Downstream NLP Task

March 14, 2022

RED-ACE: Robust Error Detection for ASR using Confidence Embeddings
Zorik Gekhman, Dina Zverinski, Jonathan Mallinson, Genady Beryozkin
Error Detection Automatic Speech Recognition Machine Self Confidence Automatic Speech Recognition Error

March 1, 2022

Sentiment Word Aware Multimodal Refinement for Multimodal Sentiment Analysis with ASR Errors
Yang Wu, Yanyan Zhao, Hao Yang, Song Chen, Bing Qin, Xiaohuan Cao, Wenting Zhao
Multimodal Sentiment Sentiment Analysis Multimodal Sentiment Analysis Automatic Speech Recognition Error

February 2, 2022

Error Correction in ASR using Sequence-to-Sequence Models
Samrat Dutta, Shreyansh Jain, Ayush Maheshwari, Souvik Pal, Ganesh Ramakrishnan, Preethi Jyothi
Sequence to Sequence Model Automatic Speech Recognition System Error Correction Automatic Speech Recognition Error Automatic Speech Recognition Accented Speech

Automatic Speech Recognition Error

Papers

The Multicultural Medical Assistant: Can LLMs Improve Medical ASR Errors Across Borders?

MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues

MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction

Transcending Controlled Environments Assessing the Transferability of ASRRobust NLU Models to Real-World Applications

Correction Focused Language Model Training for Speech Recognition

Improving CTC-AED model with integrated-CTC and auxiliary loss regularization

Multimodal Audio-textual Architecture for Robust Spoken Language Understanding

Impact of Experiencing Misrecognition by Teachable Agents on Learning and Rapport

Record Deduplication for Entity Distribution Modeling in ASR Transcripts

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding

Robust Unstructured Knowledge Access in Conversational Dialogue with ASR Errors

ASR Error Detection via Audio-Transcript entailment

Building Robust Spoken Language Understanding by Cross Attention between Phoneme Sequence and ASR Hypothesis

RED-ACE: Robust Error Detection for ASR using Confidence Embeddings

Sentiment Word Aware Multimodal Refinement for Multimodal Sentiment Analysis with ASR Errors

Error Correction in ASR using Sequence-to-Sequence Models