Speech Signal

Speech signals are the acoustic representations of spoken language, and research focuses on improving their processing for various applications. Current efforts concentrate on developing robust models for speech enhancement (e.g., using diffusion models and state-space models like Mamba), source separation (leveraging techniques like attention mechanisms and incorporating spatial information), and accurate recognition, even in noisy or challenging environments. These advancements have significant implications for improving human-computer interaction, assistive technologies for individuals with hearing impairments, and applications in healthcare (e.g., disease detection using speech biomarkers) and security (e.g., synthetic speech detection).

Papers

December 18, 2023

An Extended Variational Mode Decomposition Algorithm Developed Speech Emotion Recognition Performance
David Hason Rudd, Huan Huo, Guandong Xu
Emotion Recognition Speech Signal Signal Processing Dynamic Mode Decomposition Variational Mode Decomposition

December 17, 2023

Attention-Driven Multichannel Speech Enhancement in Moving Sound Source Scenarios
Yuzhu Wang, Archontis Politis, Tuomas Virtanen
Speech Signal Reverberant Environment Multi Channel Speech Enhancement Spatial Filtering

December 5, 2023

Leveraging Laryngograph Data for Robust Voicing Detection in Speech
Yixuan Zhang, Heming Wang, DeLiang Wang
Speech Analysis Speech Signal Speech Detection

October 19, 2023

EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks
Hanan Hamza, Fiza Gafoor, Fathima Sithara, Gayathri Anil, V. S. Anoop
Convolutional Neural Network Emotion Recognition Speech Emotion Recognition Speaker Diarization Speech Signal Emotional Speech

October 9, 2023

Super Denoise Net: Speech Super Resolution with Noise Cancellation in Low Sampling Rate Noisy Environments
Junkang Yang, Hongqing Liu, Lu Gan, Yi Zhou
Super Resolution Speech Signal Noisy Sample Speech Denoising Speech Super Resolution

October 6, 2023

Acoustic and linguistic representations for speech continuous emotion recognition in call center conversations
Manon Macary, Marie Tahon, Yannick Estève, Daniel Luzzati
Emotion Recognition Human Language Speech Analysis Speech Signal Linguistic Representation Emotion Annotation

October 4, 2023

Multi-resolution HuBERT: Multi-resolution Speech Self-Supervised Learning with Masked Unit Prediction
Jiatong Shi, Hirofumi Inaguma, Xutai Ma, Ilia Kulikov, Anna Sun
Self Supervised Learning Self Supervised Representation Learning Speech Signal Hierarchical Transformer Librispeech Speech Recognition Masked Prediction Hidden Unit BERT Universal Performance Benchmark

September 20, 2023

Directional Source Separation for Robust Speech Recognition on Smart Glasses
Tiantian Feng, Ju Lin, Yiteng Huang, Weipeng He, Kaustubh Kalgaonkar, Niko Moritz, Li Wan, Xin Lei, Ming Sun, Frank Seide
Speech Recognition Speech Signal Source Separation Microphone Array Channel Source Separation Smart Glass

September 16, 2023

Unifying Robustness and Fidelity: A Comprehensive Study of Pretrained Generative Methods for Speech Enhancement in Adverse Conditions
Heming Wang, Meng Yu, Hao Zhang, Chunlei Zhang, Zhongweiyang Xu, Muqiao Yang, Yixuan Zhang, Dong Yu
Pre Trained Speech Enhancement Speech Processing Speech Signal Speech Quality Pre Trained Generative Model Adverse Condition High Quality Speech Fidelity Reward General Robustness

September 13, 2023

A Flexible Online Framework for Projection-Based STFT Phase Retrieval
Tal Peer, Simon Welker, Johannes Kolhoff, Timo Gerkmann
Speech Signal Flexible Framework Griffin Lim Algorithm

September 3, 2023

Noise robust speech emotion recognition with signal-to-noise ratio adapting speech enhancement
Yu-Wen Chen, Julia Hirschberg, Yu Tsao
Speech Enhancement Industrial Disturbing Noise Speech Emotion Recognition Speech Signal Signal to Noise Ratio

August 31, 2023

Time-Varying Quasi-Closed-Phase Analysis for Accurate Formant Tracking in Speech Signals
Dhananjaya Gowda, Sudarsana Reddy Kadiri, Brad Story, Paavo Alku
Speech Signal Formant Tracking

August 28, 2023

August 23, 2023

Analysis of XLS-R for Speech Quality Assessment
Bastiaan Tamm, Rik Vandenberghe, Hugo Van hamme
General Analysis Speech Analysis Speech Signal Speech Quality Speech Quality Prediction

August 6, 2023

July 31, 2023

Audio-visual video-to-speech synthesis with synthesized input audio
Triantafyllos Kefalas, Yannis Panagakis, Maja Pantic
Synthesized Speech Speech Signal Synthesized Sound Video Pretraining Video to Speech Synthesis

July 19, 2023

Alzheimer's Disease Detection from Spontaneous Speech and Text: A review
Vrindha M. K., Geethu V., Anurenjan P. R., Deepak S., Sreeni K. G.
Text Modality Narrative Review Speech Analysis Alzheimer'S Disease Speech Signal Disease Detection Spontaneous Speech Speech Detection Acoustic Data

July 18, 2023

Detecting Throat Cancer from Speech Signals using Machine Learning: A Scoping Literature Review
Mary Paterson, James Moor, Luisa Cutillo
Machine Learning Speech Signal Multi Class Classification Speech Recording Reproducible Evaluation Neck Cancer

Speech Signal

Papers

An Extended Variational Mode Decomposition Algorithm Developed Speech Emotion Recognition Performance

Attention-Driven Multichannel Speech Enhancement in Moving Sound Source Scenarios

Leveraging Laryngograph Data for Robust Voicing Detection in Speech

EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks

Super Denoise Net: Speech Super Resolution with Noise Cancellation in Low Sampling Rate Noisy Environments

Acoustic and linguistic representations for speech continuous emotion recognition in call center conversations

Multi-resolution HuBERT: Multi-resolution Speech Self-Supervised Learning with Masked Unit Prediction

Directional Source Separation for Robust Speech Recognition on Smart Glasses

Unifying Robustness and Fidelity: A Comprehensive Study of Pretrained Generative Methods for Speech Enhancement in Adverse Conditions

A Flexible Online Framework for Projection-Based STFT Phase Retrieval

Noise robust speech emotion recognition with signal-to-noise ratio adapting speech enhancement

Time-Varying Quasi-Closed-Phase Analysis for Accurate Formant Tracking in Speech Signals

Unsupervised Active Learning: Optimizing Labeling Cost-Effectiveness for Automatic Speech Recognition

Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads

Analysis of XLS-R for Speech Quality Assessment

Investigation of Self-supervised Pre-trained Models for Classification of Voice Quality from Speech and Neck Surface Accelerometer Signals

Characterization of cough sounds using statistical analysis

Audio-visual video-to-speech synthesis with synthesized input audio

Alzheimer's Disease Detection from Spontaneous Speech and Text: A review

Detecting Throat Cancer from Speech Signals using Machine Learning: A Scoping Literature Review