Audio Captioning

Audio captioning aims to automatically generate natural language descriptions of audio content, bridging the gap between audio and text modalities. Current research focuses on improving caption quality, diversity, and efficiency through advancements in model architectures like diffusion models and transformers, often incorporating large language models for improved semantic understanding and evaluation. This field is significant for advancing audio understanding and multimedia applications, with ongoing efforts to address challenges such as data scarcity, evaluation metric limitations, and the development of more robust and generalizable models.

Papers

October 28, 2022

Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention
Xubo Liu, Qiushi Huang, Xinhao Mei, Haohe Liu, Qiuqiang Kong, Jianyuan Sun, Shengchen Li, Tom Ko, Yu Zhang, Lilian H. Tang, Mark D. Plumbley, Volkan Kılıç, Wenwu Wang
Visual Attention Audio Captioning

October 10, 2022

Automated Audio Captioning via Fusion of Low- and High- Dimensional Features
Jianyuan Sun, Xubo Liu, Xinhao Mei, Mark D. Plumbley, Volkan Kilic, Wenwu Wang
Hybrid Fusion Audio Representation Audio Captioning Encoder Side Low Priority High Dimensional Feature

October 3, 2022

Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity
Swapnil Bhosale, Rupayan Chakraborty, Sunil Kumar Kopparapu
Audio Captioning Text to Audio Grounding

September 28, 2022

Audio Retrieval with WavText5K and CLAP Training
Soham Deshmukh, Benjamin Elizalde, Huaming Wang
Audio Captioning K Content Audio Text Retrieval Audio Text Pair Audio Retrieval CLIP Training

September 20, 2022

Language-based Audio Retrieval Task in DCASE 2022 Challenge
Huang Xie, Samuel Lipping, Tuomas Virtanen
Natural Language Challenge Task Audio Captioning Audio Text Retrieval Audio Caption Audio Retrieval Language Based Audio Retrieval

August 12, 2022

An investigation on selecting audio pre-trained models for audio captioning
Peiran Yan, Shengchen Li
Pre Trained Model Pre Trained Comprehensive Investigation Audio Captioning Audio Pre Training

July 8, 2022

Automated Audio Captioning and Language-Based Audio Retrieval
Clive Gomes, Hyejin Park, Patrick Kollman, Yi Song, Iffanice Houndayi, Ankit Shah
Audio Captioning Audio Retrieval Language Based Audio Retrieval

June 4, 2022

Automated Audio Captioning with Epochal Difficult Captions for Curriculum Learning
Andrew Koh, Soham Tiwari, Chng Eng Siong
Curriculum Learning Audio Captioning Keyword Extraction

May 12, 2022

Automated Audio Captioning: An Overview of Recent Progress and New Challenges
Xinhao Mei, Xubo Liu, Mark D. Plumbley, Wenwu Wang
Recent Advance Natural Language Description Audio Captioning Caption Generation Audio Recording Modal Translation

May 11, 2022

Beyond the Status Quo: A Contemporary Survey of Advances and Challenges in Audio Captioning
Xuenan Xu, Zeyu Xie, Mengyue Wu, Kai Yu
Technical Challenge Comprehensive Survey Encoder Decoder Audio Captioning Chaotic Regime

April 18, 2022

April 1, 2022

Learning Audio-Video Modalities from Image Captions
Arsha Nagrani, Paul Hongsuck Seo, Bryan Seybold, Anja Hauth, Santiago Manen, Chen Sun, Cordelia Schmid
Audio Visual Audio Captioning Image Caption Video Retrieval Captioning Datasets Audio Retrieval

March 31, 2022

CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation
Ziqi Zhang, Yuxin Chen, Zongyang Ma, Zhongang Qi, Chunfeng Yuan, Bing Li, Ying Shan, Weiming Hu
New Benchmark Audio Captioning Visual Creation Chinese shoRt vidEo

March 29, 2022

Interactive Audio-text Representation for Automated Audio Captioning with Contrastive Learning
Chen Chen, Nana Hou, Yuchen Hu, Heqing Zou, Xiaofeng Qi, Eng Siong Chng
Contrastive Learning Audio Captioning Cross Modal Representation Audio Text Cross Modal Task

March 6, 2022

Leveraging Pre-trained BERT for Audio Captioning
Xubo Liu, Xinhao Mei, Qiushi Huang, Jianyuan Sun, Jinzheng Zhao, Haohe Liu, Mark D. Plumbley, Volkan Kılıç, Wenwu Wang
Audio Captioning Pre Trained BERT Audio Captioning Model

February 3, 2022

Joint Speech Recognition and Audio Captioning
Chaitanya Narisetty, Emiru Tsunoo, Xuankai Chang, Yosuke Kashiwagi, Michael Hentschel, Shinji Watanabe
Automatic Speech Recognition Audio Captioning Speech Transcription Joint Audio

January 28, 2022

Automatic Audio Captioning using Attention weighted Event based Embeddings
Swapnil Bhosale, Rupayan Chakraborty, Sunil Kumar Kopparapu
Jina Embeddings Human Attention Event Detection Event Description Audio Captioning Bi LSTM Audio Event

January 10, 2022

Local Information Assisted Attention-free Decoder for Audio Captioning
Feiyang Xiao, Jian Guan, Haiyan Lan, Qiaoxi Zhu, Wenwu Wang
Vision Transformer Attention Based Audio Captioning Caption Generation Attention Decoder