Image Caption

Image captioning aims to automatically generate descriptive text for images, bridging the gap between computer vision and natural language processing. Current research emphasizes improving caption quality, accuracy, and diversity, often focusing on advancements in transformer-based models and contrastive learning approaches, as well as addressing biases and limitations in training data through techniques like data augmentation and deduplication. This field is crucial for enhancing accessibility of visual information, improving cross-modal retrieval systems, and advancing the understanding of human-computer interaction and multimodal learning.

Papers

August 2, 2024

PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval
Yue Duan, Zhangxuan Gu, Zhenzhe Ying, Lei Qi, Changhua Meng, Yinghuan Shi
Pseudo Labeling Cross Modal Retrieval Image Caption Noisy Correspondence Learning

July 29, 2024

BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues
Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara
Image Caption Visual Cue Reference Image Railway BRIDGE Member Bridging Gap Reference Caption

July 16, 2024

CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation
Kalliopi Basioti, Mohamed A. Abdelsalam, Federico Fancellu, Vladimir Pavlovic, Afsaneh Fazly
Image Captioning Image Caption Semantic Augmentation

July 8, 2024

Leveraging image captions for selective whole slide image annotation
Jingna Qiu, Marc Aubreville, Frauke Wilm, Mathias Öttl, Jonas Utz, Maja Schlereth, Katharina Breininger
Medical Image Image Caption Unlabeled Image Annotation Region Mitotic Figure Detection

June 27, 2024

Towards Temporal Change Explanations from Bi-Temporal Satellite Images
Ryo Tsujimoto, Hiroki Ouchi, Hidetaka Kamigaito, Taro Watanabe
Satellite Image Human Ai Collaboration Aerial Image Image Caption Step by Step Reasoning Future Based Explanation

June 23, 2024

A Simple Framework for Open-Vocabulary Zero-Shot Segmentation
Thomas Stegmüller, Tim Lebailly, Nikola Dukic, Behzad Bozorgtabar, Tinne Tuytelaars, Jean-Philippe Thiran
Zero Shot Visual Representation Image Caption Zero Shot Open Vocabulary

April 24, 2024

FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset Deduplication
Eric Slyman, Stefan Lee, Scott Cohen, Kushal Kafle
Image Caption Data Deduplication Language Fairness Dataset Pruning

March 23, 2024

Cognitive resilience: Unraveling the proficiency of image-captioning models to interpret masked visual content
Zhicheng Du, Zhaotian Xie, Huazhang Ying, Likun Zhang, Peiwu Qin
Image Captioning Tiny Refinement Elicit Resilience Image Caption Image Captioning Model Textual Description

March 20, 2024

Inserting Faces inside Captions: Image Captioning with Attention Guided Merging
Yannis Tevissen, Khalil Guetari, Marine Tassel, Erwan Kerleroux, Frédéric Petitpont
Image Captioning Human Face Generated Caption Image Caption Captioning Model Astronomical Image

March 18, 2024

Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity
Siddharth Joshi, Arnav Jain, Ali Payani, Baharan Mirzasoleiman
Contrastive Language Image Data Efficient Image Caption Quantity Aware Zero Shot Generalization

March 17, 2024

Few-Shot VQA with Frozen LLMs: A Tale of Two Approaches
Igor Sterner, Weizhe Lin, Jinghong Chen, Bill Byrne
Large Language Model Constructive Approach Visual Question Answering Image Caption Cautionary TALE Visual Embeddings Frozen Large Language Model Multimodal Few Shot

March 16, 2024

LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival
Yuanxin Zhao, Mi Zhang, Bingnan Yang, Zhan Zhang, Jiaju Kang, Jianya Gong
Vision Language Model Remote Sensing App to App Retrieval Part Whole Hierarchy Image Caption Image Text Retrieval Image Text Alignment Visual Captioning Semantic Enhancement

March 12, 2024

Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings
Sahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino
Visual Language Model Image Caption Image Embeddings Synthetic Caption Synthetic Training Image Synthetic Text Image

February 28, 2024

Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction
Koki Maeda, Shuhei Kurita, Taiki Miyanishi, Naoaki Okazaki
Vision Language Image Caption Visual Context Visual in Context Learning

February 27, 2024

Probing Multimodal Large Language Models for Global and Local Semantic Representations
Mingxu Tao, Quzhe Huang, Kun Xu, Liwei Chen, Yansong Feng, Dongyan Zhao
Multimodal Large Language Model World Event Semantic Representation Image Caption Global Semantic Visual Entailment

February 23, 2024

Fine-tuning CLIP Text Encoders with Two-step Paraphrasing
Hyunjae Kim, Seunghyun Yoon, Trung Bui, Handong Zhao, Quan Tran, Franck Dernoncourt, Jaewoo Kang
Contrastive Language Image Image Caption Paraphrase Generation Text to Image Retrieval Monotonic Paraphrasing

December 14, 2023

Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image Captioning
Zhiyue Liu, Jinyuan Liu, Fanrong Ma
Image Captioning Cross Modal Alignment Image Caption Similar Pair Pre Trained Text to Image Synthetic Text Image

December 5, 2023

Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment
Brian Gordon, Yonatan Bitton, Yonatan Shafir, Roopal Garg, Xi Chen, Dani Lischinski, Daniel Cohen-Or, Idan Szpektor
Image Caption Image Text Alignment Text Image Pair Textual Feedback

December 1, 2023

Image Caption

Papers

PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval

BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues

CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation

Leveraging image captions for selective whole slide image annotation

Towards Temporal Change Explanations from Bi-Temporal Satellite Images

A Simple Framework for Open-Vocabulary Zero-Shot Segmentation

FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset Deduplication

Cognitive resilience: Unraveling the proficiency of image-captioning models to interpret masked visual content

Inserting Faces inside Captions: Image Captioning with Attention Guided Merging

Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity

Few-Shot VQA with Frozen LLMs: A Tale of Two Approaches

LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival

Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings

Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction

Probing Multimodal Large Language Models for Global and Local Semantic Representations

Fine-tuning CLIP Text Encoders with Two-step Paraphrasing

Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image Captioning

Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment

Segment and Caption Anything

Enhancing Image Captioning with Neural Models