Caption Generation

Image caption generation aims to automatically create textual descriptions of images, bridging the gap between visual and linguistic information. Current research emphasizes improving caption quality and diversity through advanced transformer-based architectures, often incorporating contextual information from the surrounding scene or external knowledge bases, and exploring techniques like reinforcement learning with human feedback to align generated captions with human preferences. This field is significant for its applications in various domains, including image retrieval, accessibility for visually impaired individuals, and automated content creation for social media and scientific publications.

Papers

November 2, 2023

Visual Analytics for Efficient Image Exploration and User-Guided Image Captioning
Yiran Li, Junpeng Wang, Prince Aboagye, Michael Yeh, Yan Zheng, Liang Wang, Wei Zhang, Kwan-Liu Ma
Large Scale Image Captioning Caption Generation Visual Analytics Visual Exploration Language Image

October 16, 2023

ViPE: Visualise Pretty-much Everything
Hassan Shahmohammadi, Adhiraj Ghosh, Hendrik P. A. Lensch
Text to Image Model Caption Generation Figurative Language Visual Description

September 28, 2023

Self-supervised Cross-view Representation Reconstruction for Change Captioning
Yunbin Tu, Liang Li, Li Su, Zheng-Jun Zha, Chenggang Yan, Qingming Huang
Self Supervised Cross Attention Caption Generation View Invariant Representation

September 18, 2023

RECAP: Retrieval-Augmented Audio Captioning
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Ramani Duraiswami, Dinesh Manocha
Audio Captioning Caption Generation Contrastive Language Audio Pretraining Recap Kg

September 6, 2023

Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End 3D Dense Captioning
Sijin Chen, Hongyuan Zhu, Mingsheng Li, Xin Chen, Peng Guo, Yinjie Lei, Gang Yu, Taihao Li, Tao Chen
Localization Focus Scene Understanding Object Localization 3D Detector Caption Generation 3D Dense Captioning

August 8, 2023

Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions
Juncheng Li, Kaihang Pan, Zhiqi Ge, Minghe Gao, Wei Ji, Wenqiao Zhang, Tat-Seng Chua, Siliang Tang, Hanwang Zhang, Yueting Zhuang
Zero Shot Fine Tuning Multimodal LLM Visual Prompt Caption Generation Multimodal Instruction

July 31, 2023

Transferable Decoding with Visual Entities for Zero-Shot Image Captioning
Junjie Fei, Teng Wang, Jinrui Zhang, Zhenyu He, Chengjie Wang, Feng Zheng
Zero Shot Pre Trained Vision Language Model Caption Generation Visual Entity Image to Text Generation Transferable Time Series

July 20, 2023

FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback
Ashish Singh, Prateek Agarwal, Zixuan Huang, Arpita Singh, Tong Yu, Sungchul Kim, Victor Bursztyn, Nikos Vlassis, Ryan A. Rossi
New Benchmark Human Feedback Generative Framework Caption Generation Captioning Method Image Caption Generation

July 14, 2023

AIC-AB NET: A Neural Network for Image Captioning with Spatial Attention and Text Attributes
Guoyun Tu, Ying Liu, Vladimir Vlassov
Neural Network Image Captioning Textual Feature Caption Generation Spatial Attention Attention Framework Attention Based Network

June 6, 2023

SciCap+: A Knowledge Augmented Dataset to Study the Challenges of Scientific Figure Captioning
Zhishen Yang, Raj Dabre, Hideki Tanaka, Naoaki Okazaki
Technical Challenge Caption Generation Scientific Figure

June 1, 2023

CapText: Large Language Model-based Caption Generation From Image Context and Description
Shinjini Ghosh, Sagnik Anupam
Large Language Model Image Captioning Generated Caption Description Library Caption Generation Image Text Alignment Visual Context Image Text Datasets

May 28, 2023

FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions
Noam Rotstein, David Bensaid, Shaked Brody, Roy Ganz, Ron Kimmel
Vision Language Image Captioning Generated Caption Caption Generation Image Caption Pair

May 25, 2023

HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning
Chia-Wen Kuo, Zsolt Kira
Image Captioning Caption Generation Level Aggregation Augmented View Visual Encoding

April 6, 2023

Efficient Audio Captioning Transformer with Patchout and Text Guidance
Thodoris Kouzelis, Grigoris Bastas, Athanasios Katsamanis, Alexandros Potamianos
Audio Captioning Caption Generation Text Guidance Modal Translation

April 5, 2023

Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models
Xuhui Jia, Yang Zhao, Kelvin C. K. Chan, Yandong Li, Han Zhang, Boqing Gong, Tingbo Hou, Huisheng Wang, Yu-Chuan Su
Text to Image Diffusion Model Arbitrary Object Caption Generation Identity Classification Loss Image Customization

March 19, 2023

Multi-modal reward for visual relationships-based image captioning
Ali Abedi, Hossein Karshenas, Peyman Adibi
Image Captioning Caption Generation Captioning Method Multimodal Reward

February 23, 2023

Summaries as Captions: Generating Figure Captions for Scientific Documents with Automated Text Summarization
Chieh-Yang Huang, Ting-Yao Hsu, Ryan Rossi, Ani Nenkova, Sungchul Kim, Gromit Yeuk-Yin Chan, Eunyee Koh, Clyde Lee Giles, Ting-Hao 'Kenneth' Huang
Structured Summary Generated Caption Caption Generation Scientific Document

February 7, 2023

KENGIC: KEyword-driven and N-Gram Graph based Image Captioning
Brandon Birmingham, Adrian Muscat
Image Captioning Image Caption N Gram Caption Generation Keyword Enrollment Image Caption Generation

November 30, 2022

Uncertainty-Aware Image Captioning
Zhengcong Fei, Mingyuan Fan, Li Zhu, Junshi Huang, Xiaoming Wei, Xiaolin Wei
Image Captioning Caption Generation Pixel Wise Uncertainty Captioning Method

November 27, 2022

CLID: Controlled-Length Image Descriptions with Limited Data
Elad Hirsch, Ayellet Tal
Limited Data Caption Generation Image Description Long Caption