Speech Recognition System

Speech recognition systems aim to accurately transcribe spoken language into text, a crucial task with broad applications. Current research focuses on improving robustness and accuracy, particularly in challenging conditions like noisy environments, multiple speakers, and disfluent speech, often employing deep learning models such as transformers and recurrent neural networks, along with techniques like multi-task learning and data augmentation. These advancements are vital for enhancing accessibility for individuals with speech impairments, improving human-computer interaction in various domains, and enabling more sophisticated natural language processing applications. Ongoing efforts also address biases in existing systems and explore multimodal approaches integrating visual information to improve performance.

Papers

January 23, 2024

Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study
W. Ronny Huang, Cyril Allauzen, Tongzhou Chen, Kilol Gupta, Ke Hu, James Qin, Yu Zhang, Yongqiang Wang, Shuo-Yiin Chang, Tara N. Sainath
Language Model Comprehensive Study Speech Recognition System Automatic Speech Recognition Performance Universal Speech Model Non Autoregressive Automatic Speech Recognition

January 5, 2024

A unified multichannel far-field speech recognition system: combining neural beamforming with attention based end-to-end model
Dongdi Zhao, Jianbo Ma, Lu Lu, Jinke Li, Xuan Ji, Lei Zhu, Fuming Fang, Ming Liu, Feijun Jiang
Human Attention Speech Recognition System End to End Model Neural Beamformer End to End Speech Recognition

December 19, 2023

Advancing VAD Systems Based on Multi-Task Learning with Improved Model Structures
Lingyun Zuo, Keyu An, Shiliang Zhang, Zhijie Yan
Multi Task Learning Speech Recognition System Voice Activity Detection Model Structure

December 7, 2023

Voice Recognition Robot with Real-Time Surveillance and Automation
Lochan Basyal
Speech Recognition Non Humanoid Robot Real Time Speech Recognition System Decomposed Automation Correction Voice Command

December 6, 2023

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models
Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi
Foundation Model Multimodal Data Audio Representation Speech Recognition System Speech Detection Virtual Assistant Acoustic Representation

November 21, 2023

LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild
David Gimeno-Gómez, Carlos-D. Martínez-Hinarejos
Wild Challenge Speech Recognition System Hidden Markov Model Continuous Spanish Visual Speech Recognition Speech Technology

November 20, 2023

App for Resume-Based Job Matching with Speech Interviews and Grammar Analysis: A Review
Tanmay Kulkarni, Yuvraj Pardeshi, Yash Shah, Vaishnvi Sakat, Sapana Bhirud
Natural Language Processing Speech Recognition Narrative Review Speech Recognition System Mobile Application Speech Recording

October 30, 2023

Combining Language Models For Specialized Domains: A Colorful Approach
Daniel Eitan, Menachem Pirchi, Neta Glazer, Shai Meital, Gil Ayach, Gidon Krendel, Aviv Shamsian, Aviv Navon, Gil Hetz, Joseph Keshet
Language Model Domain Specific Open Domain Speech Recognition System General Purpose Language Model

October 23, 2023

Modality Dropout for Multimodal Device Directed Speech Detection using Verbal and Non-Verbal Features
Gautam Krishna, Sameer Dharur, Oggi Rudovic, Pranay Dighe, Saurabh Adya, Ahmed Hussen Abdelaziz, Ahmed H Tewfik
Speech Analysis Speech Recognition System Speech Detection Multimodal Machine Verbal Communication Modality Dropout

October 18, 2023

BUT CHiME-7 system description
Martin Karafiát, Karel Veselý, Igor Szöke, Ladislav Mošner, Karel Beneš, Marcin Witkowski, Germán Barchi, Leonardo Pepino
Speech Recognition Speech Representation Automatic Speech Recognition System Speech Recognition System CHiME 7

October 16, 2023

October 15, 2023

Large Vocabulary Spontaneous Speech Recognition for Tigrigna
Ataklti Kahsu, Solomon Teferra
Speech Recognition Speech Recognition System Acoustic Model

October 14, 2023

Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring
Ankitha Sudarshan, Vinay Samuel, Parth Patwa, Ibtihel Amara, Aman Chadha
Automatic Speech Recognition Automatic Speech Recognition System Speech Recognition System Formal Concept Analysis Language Model Rescoring Context Driven

October 3, 2023

Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching
Liming Wang, Mark Hasegawa-Johnson, Chang D. Yoo
Automatic Speech Recognition Speech Recognition System Unsupervised Automatic Speech Recognition Phoneme Segmentation Skip Gram

September 27, 2023

Speech collage: code-switched audio generation by collaging monolingual corpora
Amir Hussein, Dorsa Zeinali, Ondřej Klejch, Matthew Wiesner, Brian Yan, Shammur Chowdhury, Ahmed Ali, Shinji Watanabe, Sanjeev Khudanpur
Speech Recognition Speech Recognition System Audio Generation Monolingual Corpus

September 25, 2023

On the Impact of Quantization and Pruning of Self-Supervised Speech Models for Downstream Speech Recognition Tasks "In-the-Wild''
Arthur Pimentel, Heitor Guimarães, Anderson R. Avila, Mehdi Rezagholizadeh, Tiago H. Falk
Self Supervised Learning Global Impact Quantization Operator Edge Pruning Speech Recognition System Self Supervised Speech Model Speech Recognition Accuracy Speech Recognition Task Edge Speech Application

September 20, 2023

August 30, 2023

ASTER: Automatic Speech Recognition System Accessibility Testing for Stutterers
Yi Liu, Yuekang Li, Gelei Deng, Felix Juefei-Xu, Yao Du, Cen Zhang, Chengwei Liu, Yeting Li, Lei Ma, Yang Liu
Automatic Speech Recognition Automatic Speech Recognition System Speech Recognition System Stuttering Sub Challenge Clover Sowing Accessibility Testing

Speech Recognition System

Papers

Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study

A unified multichannel far-field speech recognition system: combining neural beamforming with attention based end-to-end model

Advancing VAD Systems Based on Multi-Task Learning with Improved Model Structures

Voice Recognition Robot with Real-Time Surveillance and Automation

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models

LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild

App for Resume-Based Job Matching with Speech Interviews and Grammar Analysis: A Review

Combining Language Models For Specialized Domains: A Colorful Approach

Modality Dropout for Multimodal Device Directed Speech Detection using Verbal and Non-Verbal Features

BUT CHiME-7 system description

Optimized Tokenization for Transcribed Error Correction

Personalization of CTC-based End-to-End Speech Recognition Using Pronunciation-Driven Subword Tokenization

Large Vocabulary Spontaneous Speech Recognition for Tigrigna

Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring

Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching

Speech collage: code-switched audio generation by collaging monolingual corpora

On the Impact of Quantization and Pruning of Self-Supervised Speech Models for Downstream Speech Recognition Tasks "In-the-Wild''

AudioFool: Fast, Universal and synchronization-free Cross-Domain Attack on Speech Recognition

Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition

ASTER: Automatic Speech Recognition System Accessibility Testing for Stutterers