Text to Audio Grounding

Text-to-audio grounding (TAG) focuses on aligning textual descriptions with corresponding segments within audio recordings, enabling applications like improved audio search and retrieval. Current research emphasizes weakly supervised approaches, leveraging readily available audio-text pairs without detailed sound event annotations, and exploring advanced pooling strategies and negative sampling techniques to improve model accuracy. This work is crucial for advancing automatic audio captioning evaluation, as TAG-based metrics offer a more nuanced assessment of caption quality by considering the semantic alignment between text and audio content, surpassing traditional text-based metrics.

Papers

January 5, 2024

Towards Weakly Supervised Text-to-Audio Grounding
Xuenan Xu, Ziyang Ma, Mengyue Wu, Kai Yu
Audio Text Text to Audio Grounding

October 3, 2022

Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity
Swapnil Bhosale, Rupayan Chakraborty, Sunil Kumar Kopparapu
Audio Captioning Text to Audio Grounding

Text to Audio Grounding

Papers

Towards Weakly Supervised Text-to-Audio Grounding

Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity