Speech Emotion Recognition

Speech emotion recognition (SER) aims to automatically identify human emotions from speech, primarily focusing on improving accuracy and robustness across diverse languages and contexts. Current research emphasizes leveraging self-supervised learning models, particularly transformer-based architectures, and exploring techniques like cross-lingual adaptation, multi-modal fusion (combining speech with text or visual data), and efficient model compression for resource-constrained environments. Advances in SER have significant implications for various applications, including mental health monitoring, human-computer interaction, and personalized healthcare, by enabling more natural and empathetic interactions between humans and machines.

Papers

October 29, 2022

Unifying the Discrete and Continuous Emotion labels for Speech Emotion Recognition
Roshan Sharma, Hira Dhamyal, Bhiksha Raj, Rita Singh
Emotion Recognition Speech Emotion Recognition Discrete Environment Emotion Detection Discrete Emotion Continuous Emotion

October 28, 2022

GM-TCNet: Gated Multi-scale Temporal Convolutional Network using Emotion Causality for Speech Emotion Recognition
Jia-Xin Ye, Xin-Cheng Wen, Xuan-Ze Wang, Yong Xu, Yan Luo, Chang-Li Wu, Li-Yan Chen, Kun-Hong Liu
Speech Emotion Recognition Speech Emotion Causal Emotion Entailment

October 26, 2022

October 22, 2022

Speech Emotion Recognition via an Attentive Time-Frequency Neural Network
Cheng Lu, Wenming Zheng, Hailun Lian, Yuan Zong, Chuangao Tang, Sunan Li, Yan Zhao
Speech Emotion Recognition Time Frequency Time Frequency Attention

October 14, 2022

Training speech emotion classifier without categorical annotations
Meysam Shamsi, Marie Tahon
2 Dimensional Speech Emotion Recognition Emotional Impact Dimensionless Variable

September 30, 2022

End-to-End Label Uncertainty Modeling in Speech Emotion Recognition using Bayesian Neural Networks and Label Distribution Learning
Navin Raj Prabhu, Nale Lehmann-Willenbrock, Timo Gerkman
Bayesian Neural Network Speech Emotion Recognition Emotional Expression Label Distribution Learning Label Uncertainty Inter Annotator

September 15, 2022

Self-Supervised Attention Networks and Uncertainty Loss Weighting for Multi-Task Emotion Recognition on Vocal Bursts
Vincent Karas, Andreas Triantafyllopoulos, Meishu Song, Björn W. Schuller
Self Supervised Speech Emotion Recognition Adaptive Loss Emotional Impact Vocal Burst

August 26, 2022

Speech Emotion Recognition using Supervised Deep Recurrent System for Mental Health Monitoring
Nelly Elsayed, Zag ElSayed, Navid Asadizanjani, Murat Ozer, Ahmed Abdelgawad, Magdy Bayoumi
Recurrent Neural Network Speech Emotion Recognition Mental Health Human Emotion Virtual Assistant Deep Recurrent Neural Network Novel Deep Learning Model

August 21, 2022

August 19, 2022

Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition
Sofia Kanwal, Sohail Asghar, Hazrat Ali
Emotion Recognition Feature Selection Speech Emotion Recognition Emotional Speech Feature Visualization

August 9, 2022

Generative Data Augmentation Guided by Triplet Loss for Speech Emotion Recognition
Shijun Wang, Hamed Hemati, Jón Guðnason, Damian Borth
Raw Data Speech Emotion Recognition Multilingual Benchmark Triplet Loss Generative Data Augmentation Target Speaker Based Augmentation

July 29, 2022

Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge
Alef Iury Siqueira Ferreira, Gustavo dos Reis Oliveira
Automatic Speech Recognition Fine Tuning Speech Recognition Domain Specific Speech Emotion Recognition Challenge Task ASR Model

July 26, 2022

Multimodal Speech Emotion Recognition using Cross Attention with Aligned Audio and Text
Yoonhyung Lee, Seunghyun Yoon, Kyomin Jung
Text Modality Speech Emotion Recognition Cross Attention Global Attention Text Based Cue Audio Alignment

July 25, 2022

Label Uncertainty Modeling and Prediction for Speech Emotion Recognition using t-Distributions
Navin Raj Prabhu, Nale Lehmann-Willenbrock, Timo Gerkmann
Human Prediction Speech Emotion Recognition Emotion Label Label Uncertainty Automatic Emotion Recognition Emotion Annotation Adaptive T Distribution

July 18, 2022

CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net for the Single-Corpus and Cross-Corpus Speech Emotion Recognition
Xin-Cheng Wen, Jia-Xin Ye, Yan Luo, Yong Xu, Xuan-Ze Wang, Chang-Li Wu, Kun-Hong Liu
Speech Emotion Recognition Formality Transfer Speech Corpus CapsNet Model Cross Corpus Mixed Attention Cross Corpus Speech Emotion Recognition

Speech Emotion Recognition

Papers

Unifying the Discrete and Continuous Emotion labels for Speech Emotion Recognition

GM-TCNet: Gated Multi-scale Temporal Convolutional Network using Emotion Causality for Speech Emotion Recognition

Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning

Pretrained audio neural networks for Speech emotion recognition in Portuguese

Fast Yet Effective Speech Emotion Recognition with Self-distillation

Effect of different splitting criteria on the performance of speech emotion recognition

Two-stage dimensional emotion recognition by fusing predictions of acoustic and text networks using SVM

Speech Emotion Recognition via an Attentive Time-Frequency Neural Network

Training speech emotion classifier without categorical annotations

End-to-End Label Uncertainty Modeling in Speech Emotion Recognition using Bayesian Neural Networks and Label Distribution Learning

Self-Supervised Attention Networks and Uncertainty Loss Weighting for Multi-Task Emotion Recognition on Vocal Bursts

Speech Emotion Recognition using Supervised Deep Recurrent System for Mental Health Monitoring

Improving Speech Emotion Recognition Through Focus and Calibration Attention Mechanisms

Representation Learning with Graph Neural Networks for Speech Emotion Recognition

Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition

Generative Data Augmentation Guided by Triplet Loss for Speech Emotion Recognition

Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge

Multimodal Speech Emotion Recognition using Cross Attention with Aligned Audio and Text

Label Uncertainty Modeling and Prediction for Speech Emotion Recognition using t-Distributions

CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net for the Single-Corpus and Cross-Corpus Speech Emotion Recognition