Automatic Speech Recognition Error Correction

Automatic speech recognition (ASR) error correction aims to improve the accuracy and readability of ASR transcripts by leveraging the power of large language models (LLMs). Current research focuses on refining LLMs for this task through techniques like prompt engineering, constrained decoding using N-best lists or lattices, and multi-modal approaches incorporating visual cues (e.g., lip movements) or phonetic information. These advancements are significant because accurate transcriptions are crucial for various applications, including emotion recognition, clinical documentation, and improving the overall performance of downstream tasks that rely on speech-to-text conversion.

Papers

August 9, 2022

ASR Error Correction with Constrained Decoding on Operation Prediction
Jingyuan Yang, Rongjun Li, Wei Peng
Encoder Decoder Architecture Error Correction Constrained Decoding Automatic Speech Recognition Error Correction

May 26, 2022

Clinical Dialogue Transcription Error Correction using Seq2Seq Models
Gayani Nanayakkara, Nirmalie Wiratunga, David Corsar, Kyle Martin, Anjana Wijekoon
Doctor Patient Automatic Speech Recognition Error Correction Seq2Seq Model

Automatic Speech Recognition Error Correction

Papers

ASR Error Correction with Constrained Decoding on Operation Prediction

Clinical Dialogue Transcription Error Correction using Seq2Seq Models