Speech Emotion Recognition

Speech emotion recognition (SER) aims to automatically identify human emotions from speech, primarily focusing on improving accuracy and robustness across diverse languages and contexts. Current research emphasizes leveraging self-supervised learning models, particularly transformer-based architectures, and exploring techniques like cross-lingual adaptation, multi-modal fusion (combining speech with text or visual data), and efficient model compression for resource-constrained environments. Advances in SER have significant implications for various applications, including mental health monitoring, human-computer interaction, and personalized healthcare, by enabling more natural and empathetic interactions between humans and machines.

Papers

July 14, 2022

Semi-supervised cross-lingual speech emotion recognition
Mirko Agarla, Simone Bianco, Luigi Celona, Paolo Napoletano, Alexey Petrovsky, Flavio Piccoli, Raimondo Schettini, Ivan Shanin
Semi Supervised Learning Speech Emotion Recognition Unlabeled Speech Cross Lingual Emotion

July 12, 2022

Multitask Learning from Augmented Auxiliary Data for Improving Speech Emotion Recognition
Siddique Latif, Rajib Rana, Sara Khalifa, Raja Jurdak, Björn W. Schuller
Speech Emotion Recognition Multitask Learning Augmented Data Generalizable Representation Emotion Datasets Differentiable Augmentation

July 7, 2022

Domain Adapting Deep Reinforcement Learning for Real-world Speech Emotion Recognition
Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Bjorn W. Schuller
Domain Adaptation Speech Emotion Recognition Cross Lingual Deep Reinforcement Cross Corpus

July 5, 2022

A cross-corpus study on speech emotion recognition
Rosanna Milner, Md Asif Jalal, Raymond W. M. Ng, Thomas Hain
Speech Emotion Recognition Emotional Speech Emotion Annotation Cross Corpus Age Datasets

July 3, 2022

A Graph Isomorphism Network with Weighted Multiple Aggregators for Speech Emotion Recognition
Ying Hu, Yuwu Tang, Hao Huang, Liang He
Graph Neural Network Speech Emotion Recognition Graph Isomorphism Network Aware Aggregator

June 27, 2022

SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified Datasets and Multitask Learning
Zuheng Kang, Junqing Peng, Jianzong Wang, Jing Xiao
Emotion Recognition Speech Emotion Recognition Multitask Learning Speech Emotion Speech Datasets

June 24, 2022

Multitask vocal burst modeling with ResNets and pre-trained paralinguistic Conformers
Josh Belanich, Krishna Somandepalli, Brian Eoff, Brendan Jou
Multi Task Speech Emotion Recognition Event Detection Mel Spectrogram Single Task

June 21, 2022

Analysis of Self-Supervised Learning and Dimensionality Reduction Methods in Clustering-Based Active Learning for Speech Emotion Recognition
Einari Vaaras, Manu Airaksinen, Okko Räsänen
Self Supervised Learning General Analysis Speech Emotion Recognition Dimensionality Reduction Feature Space Contrastive Predictive Coding Dimensional Representation Clustering Based Active Learning

June 10, 2022

AHD ConvNet for Speech Emotion Classification
Asfand Ali, Danial Nasir, Mohammad Hassan Jawad
Speech Emotion Recognition Experienced Emotion High Performing 1D ConvNet Mel Spectrogram

April 28, 2022

Emotion Recognition In Persian Speech Using Deep Neural Networks
Ali Yazdani, Hossein Simchi, Yasser Shekofteh
Deep Neural Network Emotion Recognition Speech Emotion Recognition Speech Emotion Persian Dataset Arabic Sentiment Analysis Persian Text

April 25, 2022

Real-time Speech Emotion Recognition Based on Syllable-Level Feature Extraction
Abdul Rehman, Zhen-Tao Liu, Min Wu, Wei-Hua Cao, Cheng-Shan Jiang
Speech Emotion Recognition Syllable Tokenization Syllable Level

April 19, 2022

Self Supervised Adversarial Domain Adaptation for Cross-Corpus and Cross-Language Speech Emotion Recognition
Siddique Latif, Rajib Rana, Sara Khalifa, Raja Jurdak, Björn Schuller
Speech Emotion Recognition Cross Corpus Cross Corpus Speech Emotion Recognition

April 12, 2022

Speech Emotion Recognition with Global-Aware Fusion on Multi-scale Feature Representation
Wenjing Zhu, Xiang Li
Speech Emotion Recognition Multi Scale Feature Convolutional Kernel Multi Scale Feature Representation Context Aware Cross Level Fusion

April 5, 2022

April 1, 2022

Probing Speech Emotion Recognition Transformers for Linguistic Knowledge
Andreas Triantafyllopoulos, Johannes Wagner, Hagen Wierstorf, Maximilian Schmitt, Uwe Reichel, Florian Eyben, Felix Burkhardt, Björn W. Schuller
Speech Emotion Recognition Self Attention Layer Negative Sentiment Speech Recognition Performance Linguistic Knowledge

March 29, 2022

Speech Emotion Recognition with Co-Attention based Multi-level Acoustic Information
Heqing Zou, Yuke Si, Chen Chen, Deepu Rajan, Eng Siong Chng
Speech Emotion Recognition Segmental Attention Level Acoustic Information

Speech Emotion Recognition

Papers

Semi-supervised cross-lingual speech emotion recognition

Multitask Learning from Augmented Auxiliary Data for Improving Speech Emotion Recognition

Domain Adapting Deep Reinforcement Learning for Real-world Speech Emotion Recognition

A cross-corpus study on speech emotion recognition

A Graph Isomorphism Network with Weighted Multiple Aggregators for Speech Emotion Recognition

SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified Datasets and Multitask Learning

Multitask vocal burst modeling with ResNets and pre-trained paralinguistic Conformers

Analysis of Self-Supervised Learning and Dimensionality Reduction Methods in Clustering-Based Active Learning for Speech Emotion Recognition

AHD ConvNet for Speech Emotion Classification

Emotion Recognition In Persian Speech Using Deep Neural Networks

Real-time Speech Emotion Recognition Based on Syllable-Level Feature Extraction

Self Supervised Adversarial Domain Adaptation for Cross-Corpus and Cross-Language Speech Emotion Recognition

Speech Emotion Recognition with Global-Aware Fusion on Multi-scale Feature Representation

User-Level Differential Privacy against Attribute Inference Attack of Speech Emotion Recognition in Federated Learning

Learning Speech Emotion Representations in the Quaternion Domain

Probing Speech Emotion Recognition Transformers for Linguistic Knowledge

CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained ASR Embeddings for Speech Emotion Recognition

Neural Architecture Search for Speech Emotion Recognition

MMER: Multimodal Multi-task Learning for Speech Emotion Recognition

Speech Emotion Recognition with Co-Attention based Multi-level Acoustic Information