Mel Spectrogram

A mel spectrogram is a visual representation of audio, transforming sound into a visual format that highlights frequencies important to human hearing. Current research focuses on improving mel spectrogram generation and manipulation using various deep learning architectures, including variational autoencoders, normalizing flows, diffusion models, and transformers, often applied to tasks like audio compression, speech synthesis, and enhancement. These advancements are driving progress in diverse applications such as speech recognition, music generation, and audio forensics, improving both the quality and efficiency of audio processing techniques. The resulting improvements in audio analysis and synthesis have significant implications for various fields, including assistive technologies and ecological monitoring.

Papers

November 2, 2022

A weighted-variance variational autoencoder model for speech enhancement
Ali Golmakani, Mostafa Sadeghi, Xavier Alameda-Pineda, Romain Serizel
Speech Enhancement Variational Autoencoders Mel Spectrogram Variational AutoEncoder

October 26, 2022

Xiaoicesing 2: A High-Fidelity Singing Voice Synthesizer Based on Generative Adversarial Network
Chunhui Wang, Chang Zeng, Xing He
Generative Adversarial Network Mel Spectrogram Singing Voice Singing Voice Synthesis

October 24, 2022

High Fidelity Neural Audio Compression
Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi
High Fidelity Mel Spectrogram Encoder Decoder Architecture Neural Audio Audio Codec Reverberant Speech

October 21, 2022

Improved Normalizing Flow-Based Speech Enhancement using an All-pole Gammatone Filterbank for Conditional Input Representation
Martin Strauss, Matteo Torcoli, Bernd Edler
Generative Adversarial Network Speech Enhancement Mel Spectrogram Input Representation

September 22, 2022

A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS
Haohan Guo, Fenglong Xie, Frank K. Soong, Xixin Wu, Helen Meng
Training Data Variational Autoencoder Neural Vocoder Mel Spectrogram Vq Vae Neural Tt

August 26, 2022

July 19, 2022

GAFX: A General Audio Feature eXtractor
Zhaoyang Bu, Hanhaodi Zhang, Xiaohu Zhu
Feature Extraction Mel Spectrogram Spectrogram Based Audio Spectrogram Transformer Music Genre Classification

July 8, 2022

On Improving the Performance of Glitch Classification for Gravitational Wave Detection by using Generative Adversarial Networks
Jianqi Yan, Alex P. Leung, David C. Y. Hui
Generative Adversarial Network Super Resolution System Performance Mel Spectrogram Spectrogram Based Gravitational Wave Based Augmentation Glitch Classification

July 4, 2022

GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion
Magdalena Proszewska, Grzegorz Beringer, Daniel Sáez-Trigueros, Thomas Merritt, Abdelhamid Ezzerg, Roberto Barra-Chicote
Full Model Mel Spectrogram Multi Speaker Conditional Model Speaker Conditioning

June 27, 2022

Attack Agnostic Dataset: Towards Generalization and Stabilization of Audio DeepFake Detection
Piotr Kawa, Marcin Plata, Piotr Syga
Strong Generalization Deepfake Detection Mel Spectrogram Audio Deepfake Detection Attack Dataset Audio DeepFakes Self Stabilization Effect

June 25, 2022

Generating Diverse Vocal Bursts with StyleGAN2 and MEL-Spectrograms
Marco Jiralerspong, Gauthier Gidel
StyleGAN Latent Mel Spectrogram Audio Sample Audio Domain Vocal Burst

June 24, 2022

Multitask vocal burst modeling with ResNets and pre-trained paralinguistic Conformers
Josh Belanich, Krishna Somandepalli, Brian Eoff, Brendan Jou
Multi Task Speech Emotion Recognition Event Detection Mel Spectrogram Single Task

June 10, 2022

AHD ConvNet for Speech Emotion Classification
Asfand Ali, Danial Nasir, Mohammad Hassan Jawad
Speech Emotion Recognition Experienced Emotion High Performing 1D ConvNet Mel Spectrogram

June 8, 2022

Motif Mining and Unsupervised Representation Learning for BirdCLEF 2022
Anthony Miyaguchi, Jiangyue Yu, Bryan Cheungvivatpant, Dakota Dudley, Aniketh Swain
Unsupervised Method Mel Spectrogram Unsupervised Representation Learning Unsupervised Visual Representation Learning

April 27, 2022

Masked Spectrogram Prediction For Self-Supervised Audio Pre-Training
Dading Chong, Helin Wang, Peilin Zhou, Qingcheng Zeng
Self Supervised Transformer Based Model Audio Representation Mel Spectrogram Audio Transformer Audio Domain

April 26, 2022

April 25, 2022

Understanding Audio Features via Trainable Basis Functions
Kwan Yee Heung, Kin Wai Cheuk, Dorien Herremans
Automatic Speech Recognition Mel Spectrogram Spectrogram Based Audio Feature

April 22, 2022

Fused Audio Instance and Representation for Respiratory Disease Detection
Tuan Truong, Matthias Lenga, Antoine Serrurier, Sadegh Mohammadi
Individual Representation Mel Spectrogram Respiratory Sound Joint Feature Respiratory Anomaly