Captioning Datasets

Image captioning datasets are crucial for training and evaluating models that generate textual descriptions of images, aiming to bridge the gap between computer vision and natural language processing. Current research focuses on improving dataset quality by addressing noise and bias in existing datasets, developing more robust evaluation metrics, and exploring novel training strategies like self-supervised learning and contrastive methods, often employing transformer-based architectures. These advancements are vital for enhancing the accuracy and fluency of generated captions, with implications for applications ranging from image retrieval and accessibility tools to content creation and analysis across diverse domains.

Papers

February 23, 2023

HL Dataset: Visually-grounded Description of Scenes, Actions and Rationales
Michele Cafagna, Kees van Deemter, Albert Gatt
MAESTRO Dataset COCO Dataset Description Library Past Action Captioning Datasets Rationale Alignment Theatre Scene Description High Quality Caption

January 26, 2023

Semi-Supervised Image Captioning by Adversarially Propagating Labeled Data
Dong-Jin Kim, Tae-Hyun Oh, Jinsoo Choi, In So Kweon
Image Captioning Captioning Datasets Visual Captioning Labeled Data Caption Data

November 14, 2022

ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual representations
Chanda Grover, Indra Deep Mastan, Debayan Gupta
Visual Representation Single CLIP Image Text Pair Captioning Datasets Contextual Knowledge Text to Image Retrieval Contextual Alignment

October 10, 2022

Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks
Pedro Rodriguez, Mahmoud Azab, Becka Silvert, Renato Sanchez, Linzy Labson, Hardik Shah, Seungwhan Moon
Retrieval Benchmark Captioning Datasets Fighting Fire Concurrent Validity Fire Occurrence Text to Video Retrieval Caption Pair

September 21, 2022

Show, Interpret and Tell: Entity-aware Contextualised Image Captioning in Wikipedia
Khanh Nguyen, Ali Furkan Biten, Andres Mafla, Lluis Gomez, Dimosthenis Karatzas
Contextual Information Wikipedia Article Captioning Datasets Contextual Knowledge Uncertain Episode Length

August 18, 2022

VAuLT: Augmenting the Vision-and-Language Transformer for Sentiment Classification on Social Media
Georgios Chochlakis, Tejas Srinivasan, Jesse Thomason, Shrikanth Narayanan
Sentiment Analysis Social Medium Vision Language Captioning Datasets Language Transformer

July 15, 2022

LineCap: Line Charts for Data Visualization Captioning Models
Anita Mahinpei, Zona Kostic, Chris Tanner
Image Captioning Captioning Datasets Chart Image Visual Captioning

May 7, 2022

Attract me to Buy: Advertisement Copywriting Generation with Multimodal Multi-structured Information
Zhipeng Zhang, Xinglin Hou, Kai Niu, Zhongzhen Huang, Tiezheng Ge, Yuning Jiang, Qi Wu, Peng Wang
Faithful Generation Multimodal Phenomenon Semi Structured Captioning Datasets Multimodal Text Generation Multi Product Advertising Copywriting Generation

May 3, 2022

Diverse Image Captioning with Grounded Style
Franz Klein, Shweta Mahajan, Stefan Roth
Latent Space COCO Dataset Captioning Datasets Tool Grounding

April 10, 2022

Robust Cross-Modal Representation Learning with Progressive Self-Distillation
Alex Andonian, Shixing Chen, Raffay Hamid
Self Distillation Robust Representation Image Text Alignment Captioning Datasets Cross Modal Contrastive Learning Cross Modal Representation Learning

April 1, 2022

Learning Audio-Video Modalities from Image Captions
Arsha Nagrani, Paul Hongsuck Seo, Bryan Seybold, Anja Hauth, Santiago Manen, Chen Sun, Cordelia Schmid
Audio Visual Audio Captioning Image Caption Video Retrieval Captioning Datasets Audio Retrieval

March 12, 2022

Taking an Emotional Look at Video Paragraph Captioning
Qinyu Li, Tengpeng Li, Hanli Wang, Chang Wen Chen
Emotional Expression Captioning Method Captioning Datasets Video Paragraph Captioning

December 9, 2021

Injecting Semantic Concepts into End-to-End Image Captioning
Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lin Liang, Zhe Gan, Lijuan Wang, Yezhou Yang, Zicheng Liu
Captioning Model Caption Generation Captioning Datasets Image Captioning Model

November 24, 2021