Audio Generation

Audio generation research focuses on creating high-quality audio from various inputs like text, images, or video, aiming for improved realism, controllability, and efficiency. Current efforts center on refining diffusion models and transformers, often incorporating large language models for enhanced semantic understanding and control, as well as exploring techniques like flow matching for faster inference. These advancements have significant implications for diverse applications, including music composition, sound effects design, accessibility technologies (like text-to-speech), and interactive media, driving innovation across multiple scientific disciplines.

Papers

May 22, 2023

Towards generalizing deep-audio fake detection networks
Konstantin Gasenzer, Moritz Wolter
Deepfake Detection Synthesized Speech Audio Generation

May 16, 2023

SoundStorm: Efficient Parallel Audio Generation
Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi
Audio Driven Audio Generation Non Autoregressive Neural Audio Parallel Audio Generation

May 4, 2023

HiFi-Codec: Group-residual Vector quantization for High Fidelity Audio Codec
Dongchao Yang, Songxiang Liu, Rongjie Huang, Jinchuan Tian, Chao Weng, Yuexian Zou
Audio Generation Encoder Model Residual Quantization Audio Codec Codec Model

May 3, 2023

Diverse and Vivid Sound Generation from Text Descriptions
Guangwei Li, Xuenan Xu, Lingfeng Dai, Mengyue Wu, Kai Yu
Diverse Set Audio Generation Text Description

March 7, 2023

Leveraging Pre-trained AudioLDM for Text to Sound Generation: A Benchmark Study
Yi Yuan, Haohe Liu, Jinhua Liang, Xubo Liu, Mark D. Plumbley, Wenwu Wang
Text Modality Pre Trained Benchmark Study Audio Generation Text to Audio Generation

January 30, 2023

January 22, 2023

Dance2MIDI: Dance-driven multi-instruments music generation
Bo Han, Yuheng Li, Yixuan Shen, Yi Ren, Feilin Han
Music Generation Audio Generation Dance Video Music Driven Dance

November 19, 2022

VarietySound: Timbre-Controllable Video to Sound Generation via Unsupervised Information Disentanglement
Chenye Cui, Yi Ren, Jinglin Liu, Rongjie Huang, Zhou Zhao
Audio Generation Timbre Perception Video to Audio Generation

November 6, 2022

September 30, 2022

AudioGen: Textually Guided Audio Generation
Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre Défossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi
Audio Generation Text to Audio Generation Discrete Audio Representation

September 7, 2022

AudioLM: a Language Modeling Approach to Audio Generation
Zalán Borsos, Raphaël Marinier, Damien Vincent, Eugene Kharitonov, Olivier Pietquin, Matt Sharifi, Dominik Roblek, Olivier Teboul, David Grangier, Marco Tagliasacchi, Neil Zeghidour
Audio Generation Language Modeling Neural Audio Speech Tokenization High Quality Synthesis

July 20, 2022

Diffsound: Discrete Diffusion Model for Text-to-sound Generation
Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng, Yuexian Zou, Dong Yu
Audio Generation Text to Audio Generation Discrete Diffusion

June 14, 2022

Adversarial Audio Synthesis with Complex-valued Polynomial Networks
Yongtao Wu, Grigorios G Chrysos, Volkan Cevher
Real World Audio Generation Audio Synthesis Numerical Representation

April 18, 2022

Differentiable Time-Frequency Scattering on GPU
John Muradeli, Cyrus Vahidi, Changhong Wang, Han Han, Vincent Lostanlen, Mathieu Lagrange, George Fazekas
Single GPU Audio Generation Temporal Receptive Field Spectro Temporal Auditory Cortex

April 14, 2022

Streamable Neural Audio Synthesis With Non-Causal Convolutions
Antoine Caillon, Philippe Esling
Audio Generation Audio Synthesis Streaming Model Causal Convolution Neural Audio Synthesis

February 20, 2022

It's Raw! Audio Generation with State-Space Models
Karan Goel, Albert Gu, Chris Donahue, Christopher Ré
State Space Model Audio Generation Non Autoregressive Waveform Model Music Generation Task

January 25, 2022

Improving Adversarial Waveform Generation based Singing Voice Conversion with Harmonic Signals
Haohan Guo, Zhiping Zhou, Fanbo Meng, Kai Liu
Voice Conversion Audio Generation Harmonic Sound Singing Voice Conversion Speech Waveform Waveform Generation

January 7, 2022

Audio representations for deep learning in sound synthesis: A review
Anastasia Natsiou, Sean O'Leary
Deep Learning Narrative Review Audio Representation Audio Generation Audio Synthesis