Image Caption

Image captioning aims to automatically generate descriptive text for images, bridging the gap between computer vision and natural language processing. Current research emphasizes improving caption quality, accuracy, and diversity, often focusing on advancements in transformer-based models and contrastive learning approaches, as well as addressing biases and limitations in training data through techniques like data augmentation and deduplication. This field is crucial for enhancing accessibility of visual information, improving cross-modal retrieval systems, and advancing the understanding of human-computer interaction and multimodal learning.

Papers

October 17, 2023

Towards Automatic Satellite Images Captions Generation Using Large Language Models
Yingxu He, Qiqi Sun
Image Captioning Image Caption Captioning Model High Quality Caption Remote Sensing Image Change Captioning

October 5, 2023

Better Safe than Sorry: Pre-training CLIP against Targeted Data Poisoning and Backdoor Attacks
Wenhan Yang, Jingdong Gao, Baharan Mirzasoleiman
Backdoor Attack Contrastive Language Image Poisoning Attack Image Caption

October 2, 2023

Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video Captioning
Sikiru Adewale, Tosin Ige, Bolanle Hafiz Matti
Full Model LSTM Network Encoder Decoder Generated Caption Image Caption Encoder Decoder Model Video Captioning

September 22, 2023

Contextual Emotion Estimation from Image Captions
Vera Yang, Archita Srivastava, Yasaman Etesam, Chuxuan Zhang, Angelica Lim
Emotion Recognition Image Caption Emotion Annotation Emotion Probability

September 13, 2023

Mitigate Replication and Copying in Diffusion Models with Generalized Caption and Dual Fusion Enhancement
Chenghao Li, Dake Chen, Yuke Zhang, Peter A. Beerel
Diffusion Model Image Caption Serial Reproduction Fusion Architecture Data Copying

August 18, 2023

Predictive Authoring for Brazilian Portuguese Augmentative and Alternative Communication
Jayr Pereira, Rodrigo Nogueira, Cleber Zanchettin, Robson Fidalgo
Image Caption Image Prediction Communication Modality BERT Like

August 16, 2023

Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme Detection
Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee, Jing Jiang
Generated Caption Image Caption Meme Detection Soft Cap Frozen Vision Language

July 17, 2023

Image Captions are Natural Prompts for Text-to-Image Models
Shiye Lei, Hao Chen, Sen Zhang, Bo Zhao, Dacheng Tao
Generative Model Synthetic Data Text to Image Model Generated Content Image Caption Natural Language Prompt Captioning Model Synthetic Training Data

June 13, 2023

GeneCIS: A Benchmark for General Conditional Image Similarity
Sagar Vaze, Nicolas Carion, Ishan Misra
New Benchmark Representation Learning Supervised ImageNet Image Caption Retrieval Benchmark ImageNet Accuracy Conditional Similarity

June 5, 2023

Composition and Deformance: Measuring Imageability with a Text-to-Image Model
Si Wu, David A. Smith
Text to Image Model Image Caption Compositional Ability Text to Image Generation Model Deformable Nature

May 24, 2023

May 11, 2023

Simple Token-Level Confidence Improves Caption Correctness
Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
Vision Language Model Image Caption Vision Language Understanding Token Level Uncertainty

May 9, 2023

Exploiting Pseudo Image Captions for Multimodal Summarization
Chaoya Jiang, Rui Xie, Wei Ye, Jinan Sun, Shikun Zhang
Contrastive Learning Vision Language Mutual Information Image Caption Modal Similarity

May 4, 2023

Caption Anything: Interactive Image Description with Diverse Multimodal Controls
Teng Wang, Jinrui Zhang, Junjie Fei, Hao Zheng, Yunlong Tang, Zhe Li, Mingqi Gao, Shanshan Zhao
Image Captioning Image Caption Image Description

May 3, 2023

Transforming Visual Scene Graphs to Image Captions
Xu Yang, Jiawei Peng, Zihua Wang, Haiyang Xu, Qinghao Ye, Chenliang Li, Songfang Huang, Fei Huang, Zhangzikang Li, Yu Zhang
Graph Neural Network Scene Graph Node Embeddings Image Caption Graph Embeddings

April 26, 2023

From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping
Junyang Wang, Ming Yan, Yi Zhang, Jitao Sang
Faithful Generation Cross Modal Image Captioning Image Caption Video Captioning Modality Gap Association Capability CLIP Representation

April 4, 2023

AToMiC: An Image/Text Retrieval Test Collection to Support Multimedia Content Creation
Jheng-Hong Yang, Carlos Lassance, Rafael Sampaio de Rezende, Krishna Srinivasan, Miriam Redi, Stéphane Clinchant, Jimmy Lin
Cross Modal Retrieval Image Caption Single Atom Multimedia Retrieval Content Creation Text to Image Association

March 26, 2023

SEM-POS: Grammatically and Semantically Correct Video Captioning
Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa
Image Caption Video Captioning Global Local Subject Verb Agreement

March 13, 2023

PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents
Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
Contrastive Language Image Medical Image Classification Image Caption Biomedical Datasets Biomedical Text Biomedical Domain