Speech Data

Speech data research focuses on developing and improving methods for analyzing and utilizing spoken language, primarily for applications like automatic speech recognition (ASR), speech synthesis, and speaker verification. Current research emphasizes the development of robust models, often employing deep learning architectures such as Conformers and Transformers, trained on massive multilingual datasets, including both labeled and unlabeled data, sometimes augmented with synthetic speech. This field is crucial for advancing human-computer interaction, improving accessibility for individuals with disabilities, and enabling new diagnostic tools in healthcare, particularly for mental health and neurological disorders.

Papers

July 22, 2024

Early Recognition of Parkinson's Disease Through Acoustic Analysis and Machine Learning
Niloofar Fadavi, Nazanin Fadavi
Machine Learning Speech Analysis Speech Data Common Disease Parkinson Disease Parkinson'S Disease Acoustic Analysis Advanced Machine Learning

July 18, 2024

CogniVoice: Multimodal and Multilingual Fusion Networks for Mild Cognitive Impairment Assessment from Spontaneous Speech
Jiali Cheng, Mohamed Elgaar, Nidhi Vakil, Hadi Amiri
Multimodal Phenomenon Speech Data Mild Cognitive Impairment Spontaneous Speech

July 15, 2024

Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data
Liang-Hsuan Tseng, Zih-Ching Chen, Wei-Shun Chang, Cheng-Kuang Lee, Tsung-Ren Huang, Hung-yi Lee
Knowledge Distillation Automatic Speech Recognition Knowledge Based Speech Data Speech Model Real World Data Code Switching Speech Recognition Code Switching Automatic Speech Recognition

July 7, 2024

Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation
Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu
Speech Synthesis Speech Data Speech Generation Speech Dataset

June 28, 2024

Less is More: Accurate Speech Recognition & Translation without Web-Scale Data
Krishna C. Puvvada, Piotr Żelasko, He Huang, Oleksii Hrinchuk, Nithin Rao Koluguri, Kunal Dhawan, Somshubra Majumdar, Elena Rastorgueva, Zhehuai Chen, Vitaly Lavrukhin, Jagadeesh Balam, Boris Ginsburg
Machine Translation Speech Recognition View Translation Speech Data Multilingual Automatic Speech Recognition Speech Recognition Accuracy Speech Translation Model Web Scale

June 25, 2024

FASA: a Flexible and Automatic Speech Aligner for Extracting High-quality Aligned Children Speech Data
Dancheng Liu, Jinjun Xiong
Automatic Speech Recognition Speech Data Child Speech Forced Alignment Coherent Voice Transcription

June 22, 2024

Speech Analysis of Language Varieties in Italy
Moreno La Quatra, Alkis Koudounas, Elena Baralis, Sabato Marco Siniscalchi
Self Supervised Learning Speech Analysis Speech Data Linguistic Diversity

June 19, 2024

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words
Junyi Ao, Yuancheng Wang, Xiaohai Tian, Dekun Chen, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu
Language Model Speech Analysis Benchmark Dataset Speech Data Speaker Diarization Word List Dialogue Understanding

June 18, 2024

Instruction Data Generation and Unsupervised Adaptation for Speech Language Models
Vahid Noroozi, Zhehuai Chen, Somshubra Majumdar, Steve Huang, Jagadeesh Balam, Boris Ginsburg
Large Language Model Multimodal Large Language Model Synthetic Data Generation Speech Data Speech Language Model Instruction Generation Speech Input Unsupervised Adaptation

June 17, 2024

Investigating Annotator Bias in Large Language Models for Hate Speech Detection
Amit Das, Zheng Zhang, Najib Hasan, Souvika Sarkar, Fatemeh Jamshidi, Tathagata Bhattacharya, Mostafa Rahgouy, Nilanjana Raychawdhary, Dongji Feng, Vinija Jain, Aman Chadha, Mary Sandage, Lauramarie Pope, Gerry Dozier, Cheryl Seals
Hate Speech Hate Speech Detection Speech Data Annotated Dataset Data Annotation Annotation Bias

June 12, 2024

GenDistiller: Distilling Pre-trained Language Models based on an Autoregressive Generative Model
Yingying Gao, Shilei Zhang, Chao Deng, Junlan Feng
Self Supervised Learning Pre Trained Language Model Speech Data Speech Language Model Autoregressive Generative Model

June 11, 2024

Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data?
Qingkai Fang, Shaolei Zhang, Zhengrui Ma, Min Zhang, Yang Feng
Text to Speech Speech Data Speech to Speech Translation Direct Speech to Speech Translation

June 6, 2024

June 4, 2024

SimpleSpeech: Towards Simple and Efficient Text-to-Speech with Scalar Latent Transformer Diffusion Models
Dongchao Yang, Dingdong Wang, Haohan Guo, Xueyuan Chen, Xixin Wu, Helen Meng
Text to Speech Speech Data Transformer Based Diffusion Model Speech Codec

June 3, 2024

Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach
Ara Yeroyan, Nikolay Karpov
Automatic Speech Recognition Low Resource Language Speech Data Automatic Speech Recognition System Dataset Creation

June 2, 2024

YODAS: Youtube-Oriented Dataset for Audio and Speech
Xinjian Li, Shinnosuke Takamichi, Takaaki Saeki, William Chen, Sayaka Shiota, Shinji Watanabe
Speech Analysis Speech Data Audio Driven Multilingual Dataset Large Scale Speech YouTube Oriented Dataset

May 3, 2024

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition
Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic
Automatic Speech Recognition Active Learning Speech Recognition Speech Data X Vector Batch Active Learning Learning Pipeline

April 27, 2024

TI-ASU: Toward Robust Automatic Speech Understanding through Text-to-speech Imputation Against Missing Speech Modality
Tiantian Feng, Xuan Shi, Rahul Gupta, Shrikanth S. Narayanan
Training Data Speech Data Spoken Language Understanding Imputation Task Missingness Resilient

April 25, 2024

Developing Acoustic Models for Automatic Speech Recognition in Swedish
Giampiero Salvi
Automatic Speech Recognition Speech Data Acoustic Model Acoustic Modeling Continuous Speech Recognition

Speech Data

Papers

Early Recognition of Parkinson's Disease Through Acoustic Analysis and Machine Learning

CogniVoice: Multimodal and Multilingual Fusion Networks for Mild Cognitive Impairment Assessment from Spontaneous Speech

Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data

Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation

Less is More: Accurate Speech Recognition & Translation without Web-Scale Data

FASA: a Flexible and Automatic Speech Aligner for Extracting High-quality Aligned Children Speech Data

Speech Analysis of Language Varieties in Italy

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words

Instruction Data Generation and Unsupervised Adaptation for Speech Language Models

Investigating Annotator Bias in Large Language Models for Hate Speech Detection

GenDistiller: Distilling Pre-trained Language Models based on an Autoregressive Generative Model

Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data?

Beyond Performance Plateaus: A Comprehensive Study on Scalability in Speech Enhancement

Promoting Fairness and Diversity in Speech Datasets for Mental Health and Neurological Disorders Research

SimpleSpeech: Towards Simple and Efficient Text-to-Speech with Scalar Latent Transformer Diffusion Models

Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach

YODAS: Youtube-Oriented Dataset for Audio and Speech

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

TI-ASU: Toward Robust Automatic Speech Understanding through Text-to-speech Imputation Against Missing Speech Modality

Developing Acoustic Models for Automatic Speech Recognition in Swedish