Speech Recognition Accuracy

Automatic speech recognition (ASR) aims to accurately convert spoken language into text, a crucial task with broad applications. Current research focuses on improving accuracy, particularly for challenging scenarios like low-resource languages, accented speech, and noisy environments, often employing techniques like retrieval-augmented generation and contextual awareness within transformer-based models (e.g., Conformers) and large language models (LLMs). These advancements are vital for enhancing the accessibility and reliability of speech technologies across diverse populations and applications, including healthcare, assistive technologies, and human-computer interaction.

Papers

April 21, 2023

Non-autoregressive End-to-end Approaches for Joint Automatic Speech Recognition and Spoken Language Understanding
Mohan Li, Rama Doddipatla
Spoken Language Understanding Connectionist Temporal Classification Bidirectional Encoder Representation Automatic Speech Recognition Hypothesis Speech Recognition Accuracy Joint Audio Non Autoregressive End to End

January 16, 2023

Using Kaldi for Automatic Speech Recognition of Conversational Austrian German
Julian Linke, Saskia Wepner, Gernot Kubin, Barbara Schuppler
Automatic Speech Recognition Conversational Context Speech Recognition Accuracy

May 6, 2022

A Conformer-based Waveform-domain Neural Acoustic Echo Canceller Optimized for ASR Accuracy
Sankaran Panchapagesan, Arun Narayanan, Turaj Zakizadeh Shabestary, Shuai Shao, Nathan Howard, Alex Park, James Walker, Alexander Gruenstein
Speech Recognition Accuracy

March 28, 2022

Finnish Parliament ASR corpus - Analysis, benchmarks and statistics
Anja Virkkunen, Aku Rouhe, Nhan Phan, Mikko Kurimo
Automatic Speech Recognition New Benchmark General Analysis Speech Data Automatic Speech Recognition Performance Statistical Query Speech Recognition Accuracy Speech Recognition Corpus

January 4, 2022

HWRCNet: Handwritten Word Recognition in JPEG Compressed Domain using CNN-BiLSTM Network
Bulla Rajesh, Abhishek Kumar Gupta, Ayush Raj, Mohammed Javed, Shiv Ram Dubey
Recurrent Neural Network Long Short Term Memory Joint Photographic Expert Group Speech Recognition Accuracy Word Recognition Handwritten Word Recognition

Speech Recognition Accuracy

Papers

Non-autoregressive End-to-end Approaches for Joint Automatic Speech Recognition and Spoken Language Understanding

Using Kaldi for Automatic Speech Recognition of Conversational Austrian German

A Conformer-based Waveform-domain Neural Acoustic Echo Canceller Optimized for ASR Accuracy

Finnish Parliament ASR corpus - Analysis, benchmarks and statistics

HWRCNet: Handwritten Word Recognition in JPEG Compressed Domain using CNN-BiLSTM Network