Audio Generation

Audio generation research focuses on creating high-quality audio from various inputs like text, images, or video, aiming for improved realism, controllability, and efficiency. Current efforts center on refining diffusion models and transformers, often incorporating large language models for enhanced semantic understanding and control, as well as exploring techniques like flow matching for faster inference. These advancements have significant implications for diverse applications, including music composition, sound effects design, accessibility technologies (like text-to-speech), and interactive media, driving innovation across multiple scientific disciplines.

Papers

January 31, 2024

EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks
Shijia Liao, Shiyi Lan, Arun George Zachariah
Generative Adversarial Network High Fidelity Frequency Domain Audio Generation

January 9, 2024

Masked Audio Generation using a Single Non-Autoregressive Transformer
Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi
Audio Generation Non Autoregressive Text to Audio Generation Audio Token Non Autoregressive Transformer

December 25, 2023

Audiobox: Unified Audio Generation with Natural Language Prompts
Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu
Generative Model Speech Generation Audio Generation Natural Language Prompt

November 1, 2023

On The Open Prompt Challenge In Conditional Audio Generation
Ernie Chang, Sidd Srinivasan, Mahi Luthra, Pin-Jie Lin, Varun Nagaraja, Forrest Iandola, Zechun Liu, Zhaoheng Ni, Changsheng Zhao, Yangyang Shi, Vikas Chandra
Complex Prompt Audio Generation Text to Audio Generation Audio Description Conditional Music Generation Independent Phone to Audio Alignment

October 22, 2023

First-Shot Unsupervised Anomalous Sound Detection With Unknown Anomalies Estimated by Metadata-Assisted Audio Generation
Hejing Zhang, Qiaoxi Zhu, Jian Guan, Haohe Liu, Feiyang Xiao, Jiantong Tian, Xinhao Mei, Xubo Liu, Wenwu Wang
Autism Spectrum Disorder Audio Generation Audio Datasets Anomalous Sound Detection Anomalous Sound

October 1, 2023

UniAudio: An Audio Foundation Model Toward Universal Audio Generation
Dongchao Yang, Jinchuan Tian, Xu Tan, Rongjie Huang, Songxiang Liu, Xuankai Chang, Jiatong Shi, Sheng Zhao, Jiang Bian, Xixin Wu, Zhou Zhao, Shinji Watanabe, Helen Meng
Audio Generation Audio Generation Task

September 27, 2023

Speech collage: code-switched audio generation by collaging monolingual corpora
Amir Hussein, Dorsa Zeinali, Ondřej Klejch, Matthew Wiesner, Brian Yan, Shammur Chowdhury, Ahmed Ali, Shinji Watanabe, Sanjeev Khudanpur
Speech Recognition Speech Recognition System Audio Generation Monolingual Corpus

September 26, 2023

Synthia's Melody: A Benchmark Framework for Unsupervised Domain Adaptation in Audio
Chia-Hsin Lin, Charles Jones, Björn W. Schuller, Harry Coppock
Deep Learning Domain Adaptation Domain Shift Audio Driven Audio Generation Acoustic Model Basic Melody Benchmark Framework

September 22, 2023

Invisible Watermarking for Audio Generation Diffusion Models
Xirong Cao, Xiang Li, Divyesh Jadav, Yanzhao Wu, Zhehui Chen, Chen Zeng, Wenqi Wei
Diffusion Model Audio Generation Invisible Watermark

September 19, 2023

FoleyGen: Visually-Guided Audio Generation
Xinhao Mei, Varun Nagaraja, Gael Le Lan, Zhaoheng Ni, Ernie Chang, Yangyang Shi, Vikas Chandra
Audio Generation Neural Audio Video to Video Audio Token

September 15, 2023

Enhance audio generation controllability through representation similarity regularization
Yangyang Shi, Gael Le Lan, Varun Nagaraja, Zhaoheng Ni, Xinhao Mei, Ernie Chang, Forrest Iandola, Yang Liu, Vikas Chandra
Language Model Feature Enhancement Audio Generation Similarity Regularization Audio Generation Task Acoustic Token

August 24, 2023

WavMark: Watermarking for Audio Generation
Guangyu Chen, Yu Wu, Shujie Liu, Tao Liu, Xiaoyong Du, Furu Wei
Zero Shot Agnostic Watermarking Audio Generation Synthetic Voice Audio Watermarking

August 23, 2023

August 10, 2023

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
Haohe Liu, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Qiao Tian, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley
Self Supervised Pretraining Audio Generation Text to Music

July 26, 2023

WavJourney: Compositional Audio Creation with Large Language Models
Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
Audio Generation Text to Audio Generation Audio Generation Task Real Time Timbre

July 10, 2023

A Demand-Driven Perspective on Generative Audio AI
Sangshin Oh, Minsung Kang, Hyeongi Moon, Keunwoo Choi, Ben Sangbae Chon
Artificial Intelligence Research Audio Generation Audio Quality Generative Audio Current Challenge

June 17, 2023

Text-Driven Foley Sound Generation With Latent Diffusion Model
Yi Yuan, Haohe Liu, Xubo Liu, Xiyuan Kang, Peipei Wu, Mark D. Plumbley, Wenwu Wang
Jina Embeddings Latent Diffusion Model Audio Generation Contrastive Language Audio Foley Sound

May 24, 2023

Sound Design Strategies for Latent Audio Space Explorations Using Deep Learning Architectures
Kıvanç Tatar, Kelsey Cotton, Daniel Bisig
Latent Space Variational Autoencoders Deep Learning Architecture Audio Generation Sound Design

May 22, 2023

Towards generalizing deep-audio fake detection networks
Konstantin Gasenzer, Moritz Wolter
Deepfake Detection Synthesized Speech Audio Generation