Speech to Text

Speech-to-text (STT) research aims to accurately and efficiently convert spoken language into written text, encompassing tasks like automatic speech recognition and speech translation. Current efforts focus on improving model robustness and accuracy, particularly for low-resource languages and challenging audio conditions, often leveraging large language models (LLMs) and transformer-based architectures like Whisper and Conformer, alongside techniques like data augmentation and transfer learning. These advancements have significant implications for accessibility, enabling improved human-computer interaction and facilitating the development of more inclusive and versatile applications across various fields.

Papers

May 9, 2022

Deep Learning Enabled Semantic Communications with Speech Recognition and Synthesis
Zhenzi Weng, Zhijin Qin, Xiaoming Tao, Chengkang Pan, Guangyi Liu, Geoffrey Ye Li
Deep Learning Speech Recognition Speech Synthesis Semantic Communication Critical Synthesis Speech to Text Semantic Communication System Joint Encoder

May 2, 2022

Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages
Felix Wu, Kwangyoun Kim, Shinji Watanabe, Kyu Han, Ryan McDonald, Kilian Q. Weinberger, Yoav Artzi
Automatic Speech Recognition Self Supervised Speech to Text Encoder Decoder Model Language Label

April 8, 2022

Karaoker: Alignment-free singing voice synthesis with speech training data
Panos Kakoulidis, Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, June Sig Sung, Gunu Jho, Pirros Tsiakoulis, Aimilios Chalamandaris
Training Data Speech to Text Singing Voice Singing Voice Synthesis Speaker Recognition Task

April 7, 2022

February 21, 2022

Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments
Mario Esparza
Training Data Collaborative Learning Speech to Text Speech Transcription Phoneme Recognition

December 27, 2021

Chinese Learners' Phonetic Transfer of /i/ from Mandarin Chinese to General American English: A Case Study of a Chinese Learner with Advanced English
Lintao Chen
Cross Lingual Transfer Chinese Character Speech to Text Phonetic Information Chinese Learner

November 19, 2021

Semi-supervised transfer learning for language expansion of end-to-end speech recognition models to low-resource languages
Jiyeon Kim, Mehul Kumar, Dhananjaya Gowda, Abhinav Garg, Chanwoo Kim
Data Augmentation End to End Low Resource Language Low Resource Speech to Text Semi Supervised Transfer

Speech to Text

Papers

Deep Learning Enabled Semantic Communications with Speech Recognition and Synthesis

Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages

Karaoker: Alignment-free singing voice synthesis with speech training data

Linguistic-Acoustic Similarity Based Accent Shift for Accent Recognition

Speech Pre-training with Acoustic Piece

Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments

Chinese Learners' Phonetic Transfer of /i/ from Mandarin Chinese to General American English: A Case Study of a Chinese Learner with Advanced English

Semi-supervised transfer learning for language expansion of end-to-end speech recognition models to low-resource languages