Text to Music

Text-to-music research aims to generate musical audio or symbolic representations from textual descriptions, enabling users to create music through natural language. Current efforts focus on improving the quality and controllability of generated music using large language models (LLMs) to enhance datasets and refine diffusion models, as well as exploring model compression for wider accessibility. These advancements are significant for both music creation and the broader field of AI, offering new tools for composers and researchers while pushing the boundaries of cross-modal generation and representation learning.

Papers

December 9, 2024

MuMu-LLaMA: Multi-modal Music Understanding and Generation via Large Language Models
Shansong Liu, Atin Sakkeer Hussain, Qilong Wu, Chenshuo Sun, Ying Shan
Language Model Faithful Generation LLaMa LlamaCare Text to Music Cross Modal Music

October 2, 2024

Generating Symbolic Music from Natural Language Prompts using an LLM-Enhanced Dataset
Weihan Xu, Julian McAuley, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Hao-Wen Dong
Music Generation Natural Language Prompt Symbolic Music Generation Text to Music Generation Text to Music

July 23, 2024

Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning
Fang-Duo Tsai, Shih-Lun Wu, Haven Kim, Bo-Yu Chen, Hao-Chung Cheng, Yi-Hsuan Yang
Audio Editing Accompaniment Generation Text to Music Text to Music Model Text to Music Diffusion Model ProMpt Adapter Timbre Transfer Lightweight Fine Tuning

June 24, 2024

Exploring compressibility of transformer based text-to-music (TTM) models
Vasileios Moschopoulos, Thanasis Kotsiopoulos, Pablo Peso Parada, Konstantinos Nikiforidis, Alexandros Stergiadis, Gerasimos Papakostas, Md Asif Jalal, Jisi Zhang, Anastasios Drosou, Karthikeyan Saravanan
Full Model Transformer Based Model Compression Generative AI Model Text to Music Text to Music Model

June 17, 2024

ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark
Hiromi Wakaki, Yuki Mitsufuji, Yoshinori Maeda, Yukiko Nishimura, Silin Gao, Mengjie Zhao, Keiichi Yamada, Antoine Bosselut
New Benchmark Commonsense Knowledge Open Domain Dialogue System Dialogue Agent Dialogue Model Dialogue Evaluation Text to Music

May 15, 2024

Dance Any Beat: Blending Beats with Visuals in Dance Video Generation
Xuanchen Wang, Heng Wang, Dongnan Liu, Weidong Cai
Optical Flow Video Generation Rhythm Game High Quality Dance Dance Generation Text to Music

January 15, 2024

Towards A Better Metric for Text-to-Video Generation
Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
Video Generation Text to Video Text to Video Generation Video Text Alignment Text to Music

October 4, 2023

JsonTuning: Towards Generalizable, Robust, and Controllable Instruction Tuning
Chang Gao, Wenxuan Zhang, Guizhen Chen, Wai Lam
Language Model Instruction Tuning Text to Music Task Structure

August 10, 2023

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
Haohe Liu, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Qiao Tian, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley
Self Supervised Pretraining Audio Generation Text to Music

August 9, 2023

JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
Diffusion Model Generative Model Music Generation Text to Music Generation Text to Music

April 21, 2023

CLaMP: Contrastive Language-Music Pre-training for Cross-Modal Symbolic Music Information Retrieval
Shangda Wu, Dingyao Yu, Xu Tan, Maosong Sun
Cross Modal Representation Music Classification Contrastive Language Audio Pretraining Contrastive Language Audio Text to Music Cross Modal Music

January 26, 2023

MusicLM: Generating Music From Text
Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank
Text Modality Sequence to Sequence Music Generation High Fidelity Audio Conditional Music Generation Text to Music

October 2, 2022

Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings
Zhihuan Kuang, Shi Zong, Jianbing Zhang, Jiajun Chen, Hongfu Liu
Text Description Textual Description Music Tagging Music Datasets Music Recording Text to Music