Automatic Speech Recognition System

Automatic Speech Recognition (ASR) systems aim to accurately convert spoken language into text, a crucial task with broad applications. Current research heavily focuses on improving accuracy and robustness through techniques like end-to-end models (e.g., conformer transducers), large language model integration for error correction and rescoring, and addressing biases in ASR performance across different dialects and languages. These advancements are vital for enhancing the accessibility and usability of speech-based technologies in various fields, from healthcare and assistive technologies to virtual assistants and language documentation.

Papers

June 7, 2023

An ASR-Based Tutor for Learning to Read: How to Optimize Feedback to First Graders
Yu Bai, Cristian Tejedor-Garcia, Ferdy Hubers, Catia Cucchiarini, Helmer Strik
LeArning Abstract Automatic Speech Recognition Human Feedback Automatic Speech Recognition System Human Tutor

June 1, 2023

Towards hate speech detection in low-resource languages: Comparing ASR to acoustic word embeddings on Wolof and Swahili
Christiaan Jacobs, Nathanaël Carraz Rakotonirina, Everlyn Asiko Chimoto, Bruce A. Bassett, Herman Kamper
Automatic Speech Recognition Low Resource Language Hate Speech Detection Automatic Speech Recognition System African Language Online Hate Acoustic Word Embeddings

May 29, 2023

Building Accurate Low Latency ASR for Streaming Voice Search
Abhinav Goyal, Nikesh Garera
Neural Network Automatic Speech Recognition LSTM Network Automatic Speech Recognition System

May 26, 2023

DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution
Matías P. Pizarro B., Dorothea Kolossa, Asja Fischer
Adversarial Attack Automatic Speech Recognition Adversarial Example Automatic Speech Recognition System Distinct AInality Trait Adversarial Data Adversarial Audio Output Distribution

May 18, 2023

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation
Martijn Bartelds, Nay San, Bradley McDonnell, Dan Jurafsky, Martijn Wieling
Data Augmentation Automatic Speech Recognition Low Resource Automatic Speech Recognition System Automatic Speech Recognition Performance Less Data

May 12, 2023

Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes
Emma O'Neill, Julie Carson-Berndsen
Automatic Speech Recognition Automatic Speech Recognition System Speech Recognition System Network Sensitivity Phoneme Recognition Speech Recognition Accuracy L2 Speech

May 11, 2023

Masked Audio Text Encoders are Effective Multi-Modal Rescorers
Jinglun Cai, Monica Sunkara, Xilai Li, Anshu Bhatia, Xiao Pan, Sravan Bodapati
Automatic Speech Recognition Automatic Speech Recognition System Masked Language Acoustic Representation Mask Encoder

April 16, 2023

A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers
Juan Zuluaga-Gomez, Amrutha Prasad, Iuliia Nigmatulina, Petr Motlicek, Matthias Kleinert
Training Data Automatic Speech Recognition Automatic Speech Recognition System Air Traffic Air Traffic Controller

March 11, 2023

Transcription free filler word detection with Neural semi-CRFs
Ge Zhu, Yujia Yan, Juan-Pablo Caceres, Zhiyao Duan
Automatic Speech Recognition System Conditional Random Field Entire Transcription Process Filler Word

February 21, 2023

Connecting Humanities and Social Sciences: Applying Language and Speech Technology to Online Panel Surveys
Henk van den Heuvel, Martijn Bentum, Simone Wills, Judith C. Koops
Automatic Speech Recognition Sentiment Analysis Human Language Automatic Speech Recognition System Open Ended Social Science Speech Technology English Literature Online Questionnaire

February 20, 2023

Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End Speech Recognition
Leyuan Qu, Cornelius Weber, Stefan Wermter
End to End Automatic Speech Recognition System Unseen Language Word Level Rescaling Vocabulary Learning Context Based Out of Vocabulary

February 11, 2023

ASDF: A Differential Testing Framework for Automatic Speech Recognition Systems
Daniel Hao Xian Yuen, Andrew Yong Chen Pang, Zhou Yang, Chun Yong Chong, Mei Kuan Lim, David Lo
Automatic Speech Recognition Automatic Speech Recognition System Speech Recognition System Signed Distance Function ASR System Differential Testing

February 10, 2023

PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction
Ziji Zhang, Zhehui Wang, Rajesh Kamma, Sharanya Eswaran, Narayanan Sadagopan
Automatic Speech Recognition Automatic Speech Recognition System Language Correction Automatic Speech Recognition Error Correction Non Autoregressive Transformer

December 16, 2022

BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric
Mingda Chen, Paul-Ambroise Duquenne, Pierre Andrews, Justine Kao, Alexandre Mourachko, Holger Schwenk, Marta R. Costa-jussà
Automatic Speech Recognition Speech Translation Automatic Speech Recognition System End to End Speech Translation Reference Free Evaluation Multimodal Encoder

November 17, 2022

Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review
Mikel K. Ngueajio, Gloria Washington
Automatic Speech Recognition Absolute Stance Bias Bias Mitigation Automatic Speech Recognition System Speech Recognition System Literature Review Speech Technology

November 11, 2022

The Far Side of Failure: Investigating the Impact of Speech Recognition Errors on Subsequent Dementia Classification
Changye Li, Trevor Cohen, Serguei Pakhomov
Automatic Speech Recognition Global Impact Speech Data Automatic Speech Recognition System Automatic Speech Recognition Model Software Failure Speech Recognition Error

November 7, 2022

Streaming, fast and accurate on-device Inverse Text Normalization for Automatic Speech Recognition
Yashesh Gaur, Nick Kibre, Jian Xue, Kangyuan Shu, Yuhui Wang, Issac Alphanso, Jinyu Li, Yifan Gong
Automatic Speech Recognition Automatic Speech Recognition System Online Streaming Finite State Transducer Po Tagger Inverse Text Normalization

November 3, 2022

October 21, 2022

Can Visual Context Improve Automatic Speech Recognition for an Embodied Agent?
Pradip Pramanick, Chayan Sarkar
Automatic Speech Recognition Automatic Speech Recognition System Visual Context Embodied Agent

Automatic Speech Recognition System

Papers

An ASR-Based Tutor for Learning to Read: How to Optimize Feedback to First Graders

Towards hate speech detection in low-resource languages: Comparing ASR to acoustic word embeddings on Wolof and Swahili

Building Accurate Low Latency ASR for Streaming Voice Search

DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes

Masked Audio Text Encoders are Effective Multi-Modal Rescorers

A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers

Transcription free filler word detection with Neural semi-CRFs

Connecting Humanities and Social Sciences: Applying Language and Speech Technology to Online Panel Surveys

Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End Speech Recognition

ASDF: A Differential Testing Framework for Automatic Speech Recognition Systems

PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction

BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric

Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review

The Far Side of Failure: Investigating the Impact of Speech Recognition Errors on Subsequent Dementia Classification

Streaming, fast and accurate on-device Inverse Text Normalization for Automatic Speech Recognition

H_eval: A new hybrid evaluation metric for automatic speech recognition tasks

Leveraging Domain Features for Detecting Adversarial Attacks Against Deep Speech Recognition in Noise

Can Visual Context Improve Automatic Speech Recognition for an Embodied Agent?