Audio Spectrogram Transformer

Audio Spectrogram Transformers (ASTs) are a class of deep learning models designed to process audio data by representing it as spectrograms, then leveraging transformer architectures for feature extraction and classification. Current research focuses on improving AST efficiency (e.g., through token merging and alternative architectures like state space models), enhancing their robustness to noise and variations in recording devices, and developing effective pre-training and fine-tuning strategies for various downstream tasks such as sound event detection, speech synthesis, and respiratory sound classification. This work is significant because it pushes the boundaries of audio analysis, enabling more accurate and efficient applications in diverse fields ranging from environmental monitoring to medical diagnostics.

Papers

November 9, 2022

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation
Florian Schmid, Khaled Koutini, Gerhard Widmer
Knowledge Distillation Audio Spectrogram Transformer Efficient CNN Audio Tagging Complex Transformer

November 4, 2022

Integrated Parameter-Efficient Tuning for General-Purpose Audio Models
Ju-ho Kim, Jungwoo Heo, Hyun-seo Shin, Chan-yeong Lim, Ha-Jin Yu
Pre Trained Parameter Efficient Tuning Audio Spectrogram Transformer Efficient Transfer Learning Effective Transfer Learning

November 2, 2022

MAST: Multiscale Audio Spectrogram Transformers
Sreyan Ghosh, Ashish Seth, S. Umesh, Dinesh Manocha
Audio Classification Audio Spectrogram Transformer Input Spectrogram Level Acoustic Information

August 24, 2022

Improved Zero-Shot Audio Tagging & Classification with Patchout Spectrogram Transformers
Paul Primus, Gerhard Widmer
Classification Code Zero Shot Learning Audio Spectrogram Transformer Environmental Sound Acoustic Signal

July 19, 2022

July 8, 2022

BAST: Binaural Audio Spectrogram Transformer for Binaural Sound Localization
Sheng Kuang, Kiki van der Heijden, Siamak Mehrkanoon
Audio Spectrogram Transformer Sound Localization Auditory Cortex

May 4, 2022

SVTS: Scalable Video-to-Speech Synthesis
Rodrigo Mira, Alexandros Haliassos, Stavros Petridis, Björn W. Schuller, Maja Pantic
Critical Synthesis Text to Video Audio Spectrogram Transformer Video to Speech Synthesis Video Text Spotting Lip to Speech

May 3, 2022

Synthesized Speech Detection Using Convolutional Transformer-Based Spectrogram Analysis
Emily R. Bartusiak, Edward J. Delp
Deep Convolutional Neural Network Synthesized Speech Speech Signal Audio Spectrogram Transformer

March 30, 2022

MAE-AST: Masked Autoencoding Audio Spectrogram Transformer
Alan Baade, Puyuan Peng, David Harwath
Masked Autoencoders Audio Classification Encoder Decoder Architecture Audio Spectrogram Transformer Deep Encoder

March 13, 2022

CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification
Yuan Gong, Sameer Khurana, Andrew Rouditchenko, James Glass
Convolutional Neural Network Knowledge Distillation CNN Network Classification Model Audio Classification Audio Spectrogram Transformer

Audio Spectrogram Transformer

Papers

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

Integrated Parameter-Efficient Tuning for General-Purpose Audio Models

MAST: Multiscale Audio Spectrogram Transformers

Improved Zero-Shot Audio Tagging & Classification with Patchout Spectrogram Transformers

COVID-19 Detection from Respiratory Sounds with Hierarchical Spectrogram Transformers

GAFX: A General Audio Feature eXtractor

BAST: Binaural Audio Spectrogram Transformer for Binaural Sound Localization

SVTS: Scalable Video-to-Speech Synthesis

Synthesized Speech Detection Using Convolutional Transformer-Based Spectrogram Analysis

MAE-AST: Masked Autoencoding Audio Spectrogram Transformer

CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification