Acoustic Model

Acoustic modeling focuses on representing and processing speech sounds for applications like speech recognition, synthesis, and emotion analysis. Current research emphasizes improving model robustness to noise and diverse acoustic conditions, exploring architectures like Transformers and convolutional neural networks, and developing techniques for efficient training and adaptation, including unsupervised and transfer learning methods. These advancements are crucial for enhancing the accuracy and reliability of speech-based technologies across various languages and applications, particularly in low-resource settings and healthcare.

Papers

January 13, 2024

Joint Unsupervised and Supervised Training for Automatic Speech Recognition via Bilevel Optimization
A F M Saif, Xiaodong Cui, Han Shen, Songtao Lu, Brian Kingsbury, Tianyi Chen
Automatic Speech Recognition Speech Recognition Bilevel Optimization Acoustic Model Supervised Training Training Optimization

December 15, 2023

U2-KWS: Unified Two-pass Open-vocabulary Keyword Spotting with Keyword Bias
Ao Zhang, Pan Zhou, Kaixun Huang, Yong Zou, Ming Liu, Lei Xie
Open Vocabulary Acoustic Model Open Vocabulary Keyword Spotting

December 14, 2023

Acoustic models of Brazilian Portuguese Speech based on Neural Transformers
Marcelo Matheus Gauy, Marcelo Finger
Transformer Based Acoustic Model Self Supervised Speech Representation Deep Transformer Brazilian Portuguese Speech Biomarkers

November 28, 2023

D4AM: A General Denoising Framework for Downstream Acoustic Models
Chi-Chang Lee, Yu Tsao, Hsin-Min Wang, Chu-Song Chen
Speech Enhancement Acoustic Model Unseen Speaker

October 24, 2023

How Much Context Does My Attention-Based ASR System Need?
Robert Flynn, Anton Ragni
Speech Recognition Acoustic Model Context Length Speech Recognition Performance Acoustic Context

October 15, 2023

Large Vocabulary Spontaneous Speech Recognition for Tigrigna
Ataklti Kahsu, Solomon Teferra
Speech Recognition Speech Recognition System Acoustic Model

October 14, 2023

Advancing Test-Time Adaptation in Wild Acoustic Test Settings
Hongfu Liu, Hengguan Huang, Ye Wang
Adaptation Concern Test Time Adaptation Open World Speech Data Test Time Acoustic Model Pre Trained Speech Model

October 10, 2023

September 27, 2023

Multichannel Voice Trigger Detection Based on Transform-average-concatenate
Takuya Higuchi, Avamarie Brueggeman, Masood Delfarah, Stephen Shum
Speech Enhancement Acoustic Model Multi Channel Single Channel Audio Voice Trigger

September 26, 2023

Synthia's Melody: A Benchmark Framework for Unsupervised Domain Adaptation in Audio
Chia-Hsin Lin, Charles Jones, Björn W. Schuller, Harry Coppock
Deep Learning Domain Adaptation Domain Shift Audio Driven Audio Generation Acoustic Model Basic Melody Benchmark Framework

September 19, 2023

PDPCRN: Parallel Dual-Path CRN with Bi-directional Inter-Branch Interactions for Multi-Channel Speech Enhancement
Jiahui Pan, Shulin He, Tianci Wu, Hui Zhang, Xueliang Zhang
Speech Enhancement Acoustic Model Dual Branch Dual Path Channel Correlation

September 10, 2023

VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching
Yiwei Guo, Chenpeng Du, Ziyang Ma, Xie Chen, Kai Yu
Acoustic Model Synthesis Quality

September 5, 2023

Employing Real Training Data for Deep Noise Suppression
Ziyi Xu, Marvin Sach, Jan Pirklbauer, Tim Fingscheidt
Training Data Acoustic Model Synthetic Training Data Perceptual Loss Deep Noise Suppression Non Intrusive

September 1, 2023

The FruitShell French synthesis system at the Blizzard 2023 Challenge
Xin Qi, Xiaopeng Wang, Zhiyong Wang, Wang Liu, Mingming Ding, Shuchen Shi
Challenge Task Acoustic Model High Fidelity Vocoder Multi Speaker High Quality Speech Snow Surface

August 5, 2023

A Systematic Exploration of Joint-training for Singing Voice Synthesis
Yuning Wu, Yifeng Yu, Jiatong Shi, Tao Qian, Qin Jin
Speech Synthesis Acoustic Model Active Exploration Singing Voice Synthesis High Fidelity Vocoder Joint Training

July 16, 2023

Model Adaptation for ASR in low-resource Indian Languages
Abhayjeet Singh, Arjun Singh Mehta, Ashish Khuraishi K S, Deekshitha G, Gauri Date, Jai Nanavati, Jesuraja Bandekar, Karnalius Basumatary, Karthika P, Sandhya Badiger, Sathvik Udupa, Saurabh Kumar, Savitha, Prasanta Kumar Ghosh, Prashanthi V, Priyanka Pai, Raoul Nanavati, Rohan Saxena, Sai Praneeth Reddy Mora, Srinivasa Raghavan
Automatic Speech Recognition Low Resource Language Acoustic Model Model Adaptation Low Resource Indian Language

May 25, 2023

Context-aware attention layers coupled with optimal transport domain adaptation and multimodal fusion methods for recognizing dementia from spontaneous speech
Loukas Ilias, Dimitris Askounis
Alzheimer'S Disease Multimodal Fusion Attention Network Self Attention Layer Acoustic Model Multimodal Approach Spontaneous Speech Dementia Related Linguistic Anomaly

May 19, 2023

Unsupervised ASR via Cross-Lingual Pseudo-Labeling
Tatiana Likhomanenko, Loren Lugosch, Ronan Collobert
Unlabeled Data Acoustic Model Wav2vec U Unsupervised Automatic Speech Recognition Cross Lingual Sequence

April 23, 2023

SAR: Self-Supervised Anti-Distortion Representation for End-To-End Speech Model
Jianzong Wang, Xulong Zhang, Haobin Tang, Aolan Sun, Ning Cheng, Jing Xiao
Pre Training Neural Vocoder Acoustic Model Acoustic Representation Acoustic Modeling