Speech Emotion Recognition

Speech emotion recognition (SER) aims to automatically identify human emotions from speech, primarily focusing on improving accuracy and robustness across diverse languages and contexts. Current research emphasizes leveraging self-supervised learning models, particularly transformer-based architectures, and exploring techniques like cross-lingual adaptation, multi-modal fusion (combining speech with text or visual data), and efficient model compression for resource-constrained environments. Advances in SER have significant implications for various applications, including mental health monitoring, human-computer interaction, and personalized healthcare, by enabling more natural and empathetic interactions between humans and machines.

Papers

March 28, 2024

Emotion Neural Transducer for Fine-Grained Speech Emotion Recognition
Siyuan Shen, Yu Gao, Feng Liu, Hanyang Wang, Aimin Zhou
Speech Emotion Recognition Fine Grained Emotion

March 26, 2024

March 21, 2024

March 4, 2024

EMOVOME: A Dataset for Emotion Recognition in Spontaneous Real-Life Speech
Lucía Gómez-Zaragozá, Rocío del Amor, María José Castro-Bleda, Valery Naranjo, Mariano Alcañiz Raya, Javier Marín-Morales
Emotion Recognition Speech Emotion Recognition Multi Scenario Emotion Category Arousal Prediction

February 20, 2024

EMO-SUPERB: An In-depth Look at Speech Emotion Recognition
Haibin Wu, Huang-Cheng Chou, Kai-Wei Chang, Lucas Goncalves, Jiawei Du, Jyh-Shing Roger Jang, Chi-Chun Lee, Hung-Yi Lee
State of the Art Speech Emotion Recognition Speech Emotion Natural Language Annotation

February 19, 2024

February 11, 2024

Persian Speech Emotion Recognition by Fine-Tuning Transformers
Minoo Shayaninasab, Bagher Babaali
Fine Tuning Speech Emotion Recognition MAESTRO Dataset Persian Dataset Persian Speech

February 10, 2024

CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using Cochlear Cepstrum-based Masking for Speech Emotion Recognition
Ioannis Ziogas, Hessa Alfalahi, Ahsan H. Khandoker, Leontios J. Hadjileontiadis
Contrastive Learning Speech Recognition Speech Emotion Recognition Speech Representation Patch Masking Noise Masking Cochlear Model Bio Inspired Cochlear Cepstrogram

February 4, 2024

Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study on Speech Emotion Recognition
Alexandra Saliba, Yuanchao Li, Ramon Sanabria, Catherine Lai
General Analysis Study Feature Word Embeddings Speech Emotion Recognition Self Supervised Speech Model Speech Feature Acoustic Word Embeddings

February 2, 2024

January 24, 2024

MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction
Jiajun He, Xiaohan Shi, Xingfeng Li, Tomoki Toda
Speech Emotion Recognition Multimodal Fusion Automatic Speech Recognition Hypothesis Automatic Speech Recognition Error Correction Automatic Speech Recognition Error ASR Error Correction

January 19, 2024

January 16, 2024

ED-TTS: Multi-Scale Emotion Modeling using Cross-Domain Emotion Diarization for Emotional Speech Synthesis
Haobin Tang, Xulong Zhang, Ning Cheng, Jing Xiao, Jianzong Wang
Text to Speech Speech Synthesis Speech Emotion Recognition Multi Label Emotion Speech Emotion Diarization

December 31, 2023

A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions
Alex-Răzvan Ispas, Théo Deschamps-Berger, Laurence Devillers
Multi Task Learning Multi Task Speech Emotion Recognition Cross Attention Category Shift Dimensional Emotion Multi Modal Approach Dyadic Conversation Categorical Emotion

December 27, 2023

Frame-level emotional state alignment method for speech emotion recognition
Qifei Li, Yingming Gao, Cong Wang, Yayue Deng, Jinlong Xue, Yichen Han, Ya Li
Speech Emotion Recognition Utterance Level Frame Level