Image Captioning

Image captioning aims to automatically generate descriptive text for images, bridging the gap between computer vision and natural language processing. Current research focuses on improving efficiency (e.g., through early exits and knowledge distillation), enhancing performance on fine-grained datasets (e.g., by incorporating object-part details), and developing more robust evaluation metrics (e.g., addressing hallucinations). These advancements are significant for applications ranging from assisting visually impaired individuals to improving image search and retrieval, and are driving innovation in both vision-language models and evaluation methodologies.

Papers

March 24, 2024

Image Captioning in news report scenario
Tianrui Liu, Qi Cai, Changxin Xu, Bo Hong, Jize Xiong, Yuxin Qiao, Tsungwei Yang
Image Captioning Human Intuition Descriptive Caption Article GeneratIoN

March 23, 2024

Cognitive resilience: Unraveling the proficiency of image-captioning models to interpret masked visual content
Zhicheng Du, Zhaotian Xie, Huazhang Ying, Likun Zhang, Peiwu Qin
Image Captioning Tiny Refinement Elicit Resilience Image Caption Image Captioning Model Textual Description

March 21, 2024

MyVLM: Personalizing VLMs for User-Specific Queries
Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
Language Model Vision Language Model Visual Question Answering Image Captioning Personalized Knowledge User Profile 2 Dimensional Vision Language Model

March 20, 2024

Inserting Faces inside Captions: Image Captioning with Attention Guided Merging
Yannis Tevissen, Khalil Guetari, Marine Tassel, Erwan Kerleroux, Frédéric Petitpont
Image Captioning Human Face Generated Caption Image Caption Captioning Model Astronomical Image

March 12, 2024

Leveraging LLMs for On-the-Fly Instruction Guided Image Editing
Rodrigo Santos, João Silva, António Branco
Natural Language Processing Medical LLM Image Captioning Image Editing Natural Language Instruction

March 10, 2024

Transformer based Multitask Learning for Image Captioning and Object Detection
Debolena Basak, P. K. Srijith, Maunendra Sankar Desarkar
Transformer Based Object Detection Image Captioning Object Detection Model Multitask Learning

March 4, 2024

Differentially Private Representation Learning via Image Captioning
Tom Sander, Yaodong Yu, Maziar Sanjabi, Alain Durmus, Yi Ma, Kamalika Chaudhuri, Chuan Guo
Image Captioning Differentially Private Privacy Accuracy

February 28, 2024

Polos: Multimodal Metric Learning from Human Feedback for Image Captioning
Yuiga Wada, Kanta Kaneda, Daichi Saito, Komei Sugiura
Human Feedback Image Captioning Image Captioning Model Automatic Evaluation Metric Captioning Evaluation

February 27, 2024

ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks
Yang Liu, Xiaomin Yu, Gongyu Zhang, Zhen Zhu, Christos Bergeles, Prokar Dasgupta, Alejandro Granados, Sebastien Ourselin
Visual Question Answering Adaptive Importance Image Captioning Industrial Disturbing Noise Cosine Similarity Modality Gap Visual Entailment

February 21, 2024

Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP Guided Reinforcement Learning
Antoine Chaffin, Ewa Kijak, Vincent Claveau
Ground Truth Image Captioning Captioning Model Image Captioning Model Distinctive Caption Contrastive Reward

February 19, 2024

AICAttack: Adversarial Image Captioning Attack with Attention-Based Optimization
Jiyao Li, Mingze Ni, Yifei Dong, Tianqing Zhu, Wei Liu
Adversarial Attack Image Captioning Attention Model

February 13, 2024

Learning How To Ask: Cycle-Consistency Refines Prompts in Multimodal Foundation Models
Maurice Diesendruck, Jianzhe Lin, Shima Imani, Gayathri Mahalingam, Mingyang Xu, Jie Zhao
LeArning Abstract Zero Shot Self Supervised Learning Vision Language Image Captioning Multimodal Foundation Model

February 9, 2024

Large Language Models for Captioning and Retrieving Remote Sensing Images
João Daniel Silva, João Magalhães, Devis Tuia, Bruno Martins
Image Captioning Remote Sensing Image Cross Modal Retrieval Generated Caption Captioning Datasets

February 8, 2024

CIC: A Framework for Culturally-Aware Image Captioning
Youngsik Yun, Jihie Kim
New Framework Visual Question Answering Image Captioning Descriptive Caption Visual Culture

February 7, 2024

Image captioning for Brazilian Portuguese using GRIT model
Rafael Silva de Alencar, William Alberto Cruz Castañeda, Marcellus Amadeus
Image Captioning Brazilian Portuguese Captioning Method Image Captioning Model

February 5, 2024

Image-Caption Encoding for Improving Zero-Shot Generalization
Eric Yang Yu, Christopher Liao, Sathvik Ravi, Theodoros Tsiligkaridis, Brian Kulis
Zero Shot Vision Language Model Strong Generalization Image Classification Image Captioning Conditioned Caption

February 1, 2024

PICS: Pipeline for Image Captioning and Search
Grant Rosario, David Noever
Image Captioning Search Query Pipeline System Web Screenshots Image Database

January 16, 2024

KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain
Anh-Cuong Pham, Van-Quang Nguyen, Thi-Hong Vuong, Quang-Thuy Ha
Data Set Image Captioning Vietnamese Image Captioning

January 10, 2024

SnapCap: Efficient Snapshot Compressive Video Captioning
Jianqiao Sun, Yudi Su, Hao Zhang, Ziheng Cheng, Zequn Zeng, Zhengjue Wang, Bo Chen, Xin Yuan
Image Captioning Generated Caption Video Captioning Video Annotation

January 5, 2024

Object-oriented backdoor attack against image captioning
Meiling Li, Nan Zhong, Xinpeng Zhang, Zhenxing Qian, Sheng Li
Vision Language Model Image Classification Backdoor Attack Image Captioning Generated Caption