Audio Text Retrieval

Audio-text retrieval (ATR) focuses on developing systems that can efficiently retrieve audio clips based on textual descriptions, and vice versa. Current research emphasizes improving the accuracy and robustness of ATR by exploring advanced architectures like transformers and diffusion models, addressing challenges such as handling temporal information within audio, and mitigating the impact of noisy or misaligned training data through techniques like contrastive learning and adversarial training. ATR's advancements have significant implications for various applications, including multimedia search, content creation, and assistive technologies, by enabling more intuitive and effective interaction with audio-visual data.

Papers

September 20, 2022

Language-based Audio Retrieval Task in DCASE 2022 Challenge
Huang Xie, Samuel Lipping, Tuomas Virtanen
Natural Language Challenge Task Audio Captioning Audio Text Retrieval Audio Caption Audio Retrieval Language Based Audio Retrieval

August 25, 2022

Contrastive Audio-Language Learning for Music
Ilaria Manco, Emmanouil Benetos, Elio Quinton, György Fazekas
Cross Modal Music Industry Music Information Retrieval Audio Text Retrieval Contrastive Audio Multimodal Embeddings

March 29, 2022

On Metric Learning for Audio-Text Cross-Modal Retrieval
Xinhao Mei, Xubo Liu, Jianyuan Sun, Mark D. Plumbley, Wenwu Wang
Metric Learning Cross Modal Retrieval Audio Text Retrieval

March 25, 2022

Audio-text Retrieval in Context
Siyu Lou, Xuenan Xu, Mengyue Wu, Kai Yu
Pre Trained Context Information Audio Text Retrieval

December 17, 2021

Audio Retrieval with Natural Language Queries: A Benchmark Study
A. Sophia Koepke, Andreea-Maria Oncescu, João F. Henriques, Zeynep Akata, Samuel Albanie
Benchmark Study Natural Language Query Audio Text Retrieval Audio Retrieval

Audio Text Retrieval

Papers

Language-based Audio Retrieval Task in DCASE 2022 Challenge

Contrastive Audio-Language Learning for Music

On Metric Learning for Audio-Text Cross-Modal Retrieval

Audio-text Retrieval in Context

Audio Retrieval with Natural Language Queries: A Benchmark Study