Audio Pre Training

Audio pre-training leverages self-supervised learning to create robust and generalizable audio representations from massive datasets, aiming to improve downstream tasks like speech recognition, music understanding, and video-to-speech synthesis. Current research focuses on developing effective pre-training strategies, including masked prediction and utilizing transformer-based architectures, often incorporating teacher models or iterative training to refine acoustic tokenizers. These advancements significantly enhance the performance of various audio-related applications by providing high-quality, pre-trained models that can be fine-tuned for specific tasks, reducing the need for extensive task-specific training data.

Papers

April 9, 2024

Masked Modeling Duo: Towards a Universal Audio Pre-training Framework
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino
New Framework Audio Representation Universal Image Speech Domain Mask Pair Audio Pre Training

June 29, 2023

Foundation Model for Endoscopy Video Analysis via Large-scale Self-supervised Pre-train
Zhao Wang, Chang Liu, Shaoting Zhang, Qi Dou
Foundation Model Endoscopic Image Video Transformer Large Scale Self Supervised Audio Pre Training

June 27, 2023

Large-scale unsupervised audio pre-training for video-to-speech synthesis
Triantafyllos Kefalas, Yannis Panagakis, Maja Pantic
Large Scale Audio Visual Audio Datasets Video to Speech Synthesis Audio Pre Training

May 31, 2023

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghao Xiao, Chenghua Lin, Anton Ragni, Emmanouil Benetos, Norbert Gyenge, Roger Dannenberg, Ruibo Liu, Wenhu Chen, Gus Xia, Yemin Shi, Wenhao Huang, Zili Wang, Yike Guo, Jie Fu
Language Model Self Supervised Large Scale Self Supervised Audio Pre Training

December 18, 2022

BEATs: Audio Pre-Training with Acoustic Tokenizers
Sanyuan Chen, Yu Wu, Chengyi Wang, Shujie Liu, Daniel Tompkins, Zhuo Chen, Furu Wei
Rhythm Game Hierarchical Token Semantic Audio Transformer Acoustic Token Audio Pre Training Audio Supervised Learning

August 12, 2022

An investigation on selecting audio pre-trained models for audio captioning
Peiran Yan, Shengchen Li
Pre Trained Model Pre Trained Comprehensive Investigation Audio Captioning Audio Pre Training

December 14, 2021

Improving Hybrid CTC/Attention End-to-end Speech Recognition with Pretrained Acoustic and Language Model
Keqi Deng, Songjun Cao, Yike Zhang, Long Ma
Language Model Automatic Speech Recognition Speech Recognition Human Attention CTC Based Acoustic Representation Audio Pre Training