Image Caption Pair

Image-caption pairs, comprising an image and its corresponding textual description, are fundamental to vision-language research, primarily aiming to improve multimodal understanding and generation. Current research focuses on leveraging these pairs to enhance model capabilities in tasks like image captioning, object detection, and retrieval, often employing contrastive learning and diffusion models, as well as large language models for caption enrichment. This area is significant because improved vision-language alignment enables advancements in various applications, including zero-shot learning, medical image analysis, and more robust and efficient multimodal systems.

Papers

November 5, 2023

Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models
Jingru Yi, Burak Uzkent, Oana Ignat, Zili Li, Amanmeet Garg, Xiang Yu, Linda Liu
Language Model Visual Grounding Image Caption Pair Similar Pair Visual Correspondence

October 25, 2023

Prompt Me Up: Unleashing the Power of Alignments for Multimodal Entity and Relation Extraction
Xuming Hu, Junzhe Chen, Aiwei Liu, Shiao Meng, Lijie Wen, Philip S. Yu
Real Power Style PROMPT Soft Label Image Caption Pair Image Alignment Better Alignment Multimodal Information Extraction

September 28, 2023

ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens
Yangyang Guo, Haoyu Zhang, Yongkang Wong, Liqiang Nie, Mohan Kankanhalli
Visual Token Image Caption Pair Pre Training Model Token Pruning Language Image Efficient Image Language Image Pre Training

September 6, 2023

C-CLIP: Contrastive Image-Text Encoders to Close the Descriptive-Commentative Gap
William Theisen, Walter Scheirer
Image Caption Pair Text Contrastive Learning CLIP Training U CLIP Update Code Comment Pair Reasoning Gap

August 22, 2023

ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data
Maya Varma, Jean-Benoit Delbrouck, Sarah Hooper, Akshay Chaudhari, Curtis Langlotz
Vision Language Model Real World Data Image Caption Pair Fine Grained Vision Language

July 31, 2023

Guiding Image Captioning Models Toward More Specific Captions
Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen
Image Caption Pair Image Captioning Model Captioning Metric

July 6, 2023

T-MARS: Improving Visual Representations by Circumventing Text Feature Learning
Pratyush Maini, Sachin Goyal, Zachary C. Lipton, J. Zico Kolter, Aditi Raghunathan
Visual Representation Image Caption Pair Multimodal Datasets Text Informed Feature Generation

June 26, 2023

Self-Supervised Image Captioning with CLIP
Chuanyang Jin
Self Supervised Image Captioning Single CLIP Image Caption Pair Captioning Method

June 10, 2023

Multi-modal Pre-training for Medical Vision-language Understanding and Generation: An Empirical Study with A New Benchmark
Li Xu, Bo Liu, Ameer Hamza Khan, Lu Fan, Xiao-Ming Wu
New Benchmark Vision Language Empirical Study Faithful Generation Multi Modal Image Caption Pair Medical Vision

June 9, 2023

Read, look and detect: Bounding box annotation from image-caption pairs
Eduardo Hugo Sanchez
Weakly Supervised Read V Self Supervised Vision Transformer Image Caption Pair Bounding Box Annotation Image Level Annotation

June 8, 2023

Modular Visual Question Answering via Code Generation
Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell, Dan Klein
Pre Trained Language Model Code Generation Visual Question Answering 3d Vqa Image Caption Pair HotPotQA Dataset VQA System

May 28, 2023

FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions
Noam Rotstein, David Bensaid, Shaked Brody, Roy Ganz, Ron Kimmel
Vision Language Image Captioning Generated Caption Caption Generation Image Caption Pair

May 27, 2023

Learning from Children: Improving Image-Caption Pretraining via Curriculum
Hammad A. Ayyubi, Rahul Lokesh, Alireza Zareian, Bo Wu, Shih-Fu Chang
LeArning Abstract Zero Shot Curriculum Learning Nine Year Old Child Image Caption Pair Proximal Curriculum Vanilla Transformer

May 10, 2023

iEdit: Localised Text-guided Image Editing with Weak Supervision
Rumeysa Bodur, Erhan Gundogdu, Binod Bhattarai, Tae-Kyun Kim, Michael Donoser, Loris Bazzani
Diffusion Model Contrastive Learning Weak Supervision Image Caption Pair Image Fidelity Text Guided Image Editing

May 9, 2023

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset
Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
Image Captioning Vision Language Task Image Caption Pair Web Task

May 5, 2023

A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding
Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
Image Captioning Global Attention Wikipedia Article Image Caption Pair Generative Task Software Suite Multimodal Content

May 3, 2023

Multimodal Data Augmentation for Image Captioning using Diffusion Models
Changrong Xiao, Sean Xin Xu, Kunpeng Zhang
Diffusion Model Text to Image Model Image Captioning Image Caption Pair Captioning Method Multimodal Data Augmentation

March 31, 2023

DIME-FM: DIstilling Multimodal and Efficient Foundation Models
Ximeng Sun, Pengchuan Zhang, Peizhao Zhang, Hardik Shah, Kate Saenko, Xide Xia
Foundation Model Supervised ImageNet Image Text Pair Image Caption Pair Common Coin Pre Trained CLIP Multimodal Distillation

March 17, 2023

Investigating the Role of Attribute Context in Vision-Language Models for Object Recognition and Detection
Kyle Buettner, Adriana Kovashka
Vision Language Model Data Detection Integral Role Object Recognition Image Caption Pair Vision Language Alignment Object Embeddings Attribute Feature Negative Caption

March 13, 2023

Robust Contrastive Language-Image Pre-training against Data Poisoning and Backdoor Attacks
Wenhan Yang, Jingdong Gao, Baharan Mirzasoleiman
Backdoor Attack Contrastive Language Image Contrastive Vision Language Data Poisoning Image Caption Pair Pre Trained CLIP