Image Caption Pair

Image-caption pairs, comprising an image and its corresponding textual description, are fundamental to vision-language research, primarily aiming to improve multimodal understanding and generation. Current research focuses on leveraging these pairs to enhance model capabilities in tasks like image captioning, object detection, and retrieval, often employing contrastive learning and diffusion models, as well as large language models for caption enrichment. This area is significant because improved vision-language alignment enables advancements in various applications, including zero-shot learning, medical image analysis, and more robust and efficient multimodal systems.

Papers

February 6, 2023

Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval
Kuniaki Saito, Kihyuk Sohn, Xiang Zhang, Chun-Liang Li, Chen-Yu Lee, Kate Saenko, Tomas Pfister
Word List Image Caption Pair Composed Image Retrieval Zero Shot Composed Image Retrieval Image Feature Map

January 5, 2023

ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions
Aashish Anantha Ramakrishnan, Sharon X. Huang, Dongwon Lee
Text to Image Synthesis Image Caption Pair News Caption

October 18, 2022

Probing Cross-modal Semantics Alignment Capability from the Textual Perspective
Zheng Ma, Shi Zong, Mianzhi Pan, Jianbing Zhang, Shujian Huang, Xinyu Dai, Jiajun Chen
Cross Modal Image Captioning Downstream Task Image Caption Pair Textual Representation Cross Modal Semantic Alignment

October 17, 2022

Weakly Supervised Face Naming with Symmetry-Enhanced Contrastive Loss
Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens
Face Recognition Weakly Supervised Image Caption Pair Contrastive Alignment Latent Alignment Labeled Face

May 12, 2022

Localized Vision-Language Matching for Open-vocabulary Object Detection
Maria A. Bravo, Sudhanshu Mittal, Thomas Brox
Detection Task Open Vocabulary Object Detection Image Caption Pair

March 7, 2022

Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept Recognition
Peipei Zhu, Xiao Wang, Yong Luo, Zhenglong Sun, Wei-Shi Zheng, Yaowei Wang, Changwen Chen
Image Captioning Visual Concept Image Level Label Image Caption Pair Image Level Weakly Supervised Object Detection

December 20, 2021

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding
Revanth Gangi Reddy, Xilin Rui, Manling Li, Xudong Lin, Haoyang Wen, Jaemin Cho, Lifu Huang, Mohit Bansal, Avirup Sil, Shih-Fu Chang, Alexander Schwing, Heng Ji
Knowledge Extraction Multi Hop Question Answering Grounding Network Image Caption Pair Object Grounding Cross Modal Knowledge Synthetic Question

December 13, 2021

MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and Unpaired Text-based Image Captioning
Wenqiao Zhang, Haochen Shi, Jiannan Guo, Shengyu Zhang, Qingpeng Cai, Juncheng Li, Sihui Luo, Yueting Zhuang
Image Captioning Diverse Set Image Caption Pair Relational Graph Distinctive Caption

December 2, 2021

Object-Centric Unsupervised Image Captioning
Zihang Meng, David Yang, Xuefei Cao, Ashish Shah, Ser-Nam Lim
Image Captioning Image Caption Pair