Long Caption

Research on long captions in language-image pre-training aims to improve the ability of models to understand and generate detailed descriptions of images, overcoming limitations of existing datasets primarily containing short captions. Current efforts focus on developing new model architectures and training strategies, such as contrastive learning and adaptive token length assignment for vision transformers, to effectively utilize longer, more descriptive captions. This work is significant because it enhances the richness of image-text representations, leading to improved performance in various downstream tasks like image retrieval and semantic segmentation, and potentially impacting applications requiring detailed visual understanding.

Papers

October 13, 2024

TULIP: Token-length Upgraded CLIP
Ivona Najdenkoska, Mohammad Mahdi Derakhshani, Yuki M. Asano, Nanne van Noord, Marcel Worring, Cees G. M. Snoek
Text to Image Generation Single CLIP Positional Encoding Long Caption

October 7, 2024

LoTLIP: Improving Language-Image Pre-training for Long Text Understanding
Wei Wu, Kecheng Zheng, Shuailei Ma, Fan Lu, Yuxin Guo, Yifei Zhang, Wei Chen, Qingpei Guo, Yujun Shen, Zheng-Jun Zha
Image Text Retrieval Text Understanding Long Text Understanding Long Caption

March 25, 2024

DreamLIP: Language-Image Pre-training with Long Captions
Kecheng Zheng, Yifei Zhang, Wei Wu, Fan Lu, Shuailei Ma, Xin Jin, Wei Chen, Yujun Shen
Language Image Pre Training Long Caption

January 15, 2024

FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos
Darshan Singh S, Zeeshan Khan, Makarand Tapaswi
Contrastive Language Image Vision Language Task Generated Caption Fine Grained Visual Video Annotation Long Caption

September 15, 2023

PatFig: Generating Short and Long Captions for Patent Figures
Dana Aubakirova, Kim Gerdes, Lufei Liu
Text Based Cue Long Caption Patent Image

July 5, 2023

Make A Long Image Short: Adaptive Token Length for Vision Transformers
Qiqi Zhou, Yichen Zhu
Vision Transformer Adaptive Token Long Caption

November 27, 2022

CLID: Controlled-Length Image Descriptions with Limited Data
Elad Hirsch, Ayellet Tal
Limited Data Caption Generation Image Description Long Caption

December 3, 2021

Make A Long Image Short: Adaptive Token Length for Vision Transformers
Yichen Zhu, Yuqin Zhu, Jie Du, Yi Wang, Zhicai Ou, Feifei Feng, Jian Tang
Vision Transformer Adaptive Token Long Caption