Caption Editing

Caption editing focuses on improving the accuracy, fluency, and informativeness of image and video captions, primarily by leveraging large vision-language models (LVLMs) and diffusion mechanisms. Current research emphasizes mitigating hallucinations (incorrect details in generated captions), enhancing generalization capabilities across diverse datasets, and developing explainable editing methods that mimic human-like revisions through explicit edit operations. These advancements are significant for improving the quality and reliability of multimodal data, impacting applications such as image retrieval, visual question answering, and accessible multimedia content creation.

Papers

January 10, 2025

Understanding How Paper Writers Use AI-Generated Captions in Figure Caption Writing
Ho Yin (Sam)Ng, Ting-Yao Hsu, Jiyoo Min, Sungchul Kim, Ryan A. Rossi, Tong Yu, Hyunggu Jung, Ting-Hao 'Kenneth' Huang
Generated Caption Image Caption Caption Generation Co Writing Caption Editing

October 29, 2024

Natural Language Inference Improves Compositionality in Vision-Language Models
Paola Cascante-Bonilla, Yu Hou, Yang Trista Cao, Hal Daumé III, Rachel Rudinger
Vision Language Model Full Model Natural Language Natural Language Inference Compositional Language Compositional Reasoning Caption Editing

May 27, 2024

Video Enriched Retrieval Augmented Generation Using Aligned Video Captions
Kevin Dela Rosa
Large Language Model Large Corpus Source Video Caption Editing

December 4, 2023

Mitigating Fine-Grained Hallucination by Fine-Tuning Large Vision-Language Models with Caption Rewrites
Lei Wang, Jiabang He, Shenshen Li, Ning Liu, Ee-Peng Lim
Large Vision Language Model Hallucination Evaluation Fine Grained Hallucination Caption Editing

November 25, 2023

DECap: Towards Generalized Explicit Caption Editing via Diffusion Mechanism
Zhen Wang, Xinyun Jiang, Jun Xiao, Tao Chen, Long Chen
Diffusion Explainer Caption Generation Caption Editing Decap Optimization Policy

October 23, 2023

Leveraging Image-Text Similarity and Caption Modification for the DataComp Challenge: Filtering Track and BYOD Track
Shuhei Yokoo, Peifei Zhu, Yuchi Ishikawa, Mikihiro Tanaka, Masayoshi Kondo, Hirokatsu Kataoka
Multimodal Feature Multimodal CLIP Web Crawled Data Caption Editing Track Finding

August 25, 2023

MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning
Bang Yang, Fenglin Liu, Xian Wu, Yaowei Wang, Xu Sun, Yuexian Zou
Image Captioning Complex Prompt Video Captioning Caption Pair Caption Editing Visual Captioning Model

June 15, 2023

Pragmatic Inference with a CLIP Listener for Contrastive Captioning
Jiefu Ou, Benno Krojer, Daniel Fried
Captioning Model Pragmatic Inference Contrastive Captioners Caption Editing

May 20, 2023

DiffCap: Exploring Continuous Diffusion on Image Captioning
Yufeng He, Zefan Cai, Xu Gan, Baobao Chang
Image Captioning Diffusion Based Text to Image Time Series Diffusion Multimodal Text Generation Caption Editing

May 5, 2023

The Role of Data Curation in Image Captioning
Wenyan Li, Jonas F. Lotz, Chen Qiu, Desmond Elliott
Integral Role Image Captioning COCO Dataset Training Model Data Curation Caption Editing

July 20, 2022

Explicit Image Caption Editing
Zhen Wang, Long Chen, Wenbo Ma, Guangxing Han, Yulei Niu, Jian Shao, Jun Xiao
Distinctive Caption Caption Editing Reference Caption