Speech Transcription

Speech transcription, the automated conversion of spoken language into text, aims to create accurate and efficient systems for diverse applications. Current research focuses on improving the speed and accuracy of transformer-based models like Whisper, addressing challenges posed by noisy or diverse audio data, and exploring end-to-end approaches that integrate speech recognition with other tasks such as summarization, translation, and emotion recognition. These advancements have significant implications for accessibility (e.g., subtitling, transcription of legal proceedings), healthcare (e.g., Alzheimer's diagnosis), and language learning, particularly in low-resource settings where large labeled datasets are scarce.

Papers

October 24, 2022

Proficiency assessment of L2 spoken English using wav2vec 2.0
Stefano Bannò, Marco Matassoni
ASR System Speech Transcription BERT Baseline Language Proficiency Proficiency Vector Corrupted L2 Text

October 14, 2022

August 19, 2022

Gender Bias and Universal Substitution Adversarial Attacks on Grammatical Error Correction Systems for Automated Assessment
Vyas Raina, Mark Gales
Adversarial Attack Gender Bias Grammatical Error Correction Speech Transcription

July 28, 2022

Extending RNN-T-based speech recognition systems with emotion and language classification
Zvi Kons, Hagai Aronowitz, Edmilson Morais, Matheus Damasceno, Hong-Kwang Kuo, Samuel Thomas, George Saon
Speech Recognition Underlying Emotion Speech Recognition System Speech Transcription Recurrent Neural Network Transducer Linguistic Landscape

May 14, 2022

Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing
Heli Qi, Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
Speech Recognition Consistency Training Speech Transcription Speech Reconstruction Synthetic Transcript Semi Supervised Sequence

February 21, 2022

Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments
Mario Esparza
Training Data Collaborative Learning Speech to Text Speech Transcription Phoneme Recognition

February 3, 2022

Joint Speech Recognition and Audio Captioning
Chaitanya Narisetty, Emiru Tsunoo, Xuankai Chang, Yosuke Kashiwagi, Michael Hentschel, Shinji Watanabe
Automatic Speech Recognition Audio Captioning Speech Transcription Joint Audio

January 26, 2022

Tackling data scarcity in speech translation using zero-shot multilingual machine translation techniques
Tu Anh Dinh, Danni Liu, Jan Niehues
Speech Translation Data Scarcity Zero Shot Translation Multilingual Translation Speech Transcription Translation Datasets Zero Shot Multilingual

Speech Transcription

Papers

Proficiency assessment of L2 spoken English using wav2vec 2.0

Bringing NURC/SP to Digital Life: the Role of Open-source Automatic Speech Recognition Models

Learning to Jointly Transcribe and Subtitle for End-to-End Spontaneous Speech Recognition

Gender Bias and Universal Substitution Adversarial Attacks on Grammatical Error Correction Systems for Automated Assessment

Extending RNN-T-based speech recognition systems with emotion and language classification

Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing

Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments

Joint Speech Recognition and Audio Captioning

Tackling data scarcity in speech translation using zero-shot multilingual machine translation techniques