Image Text Pair

May 8, 2023

Less is More: Removing Text-regions Improves CLIP Training Efficiency and Robustness
Liangliang Cao, Bowen Zhang, Chen Chen, Yinfei Yang, Xianzhi Du, Wencong Zhang, Zhiyun Lu, Yantao Zheng
Native Robustness Supervised ImageNet Contrastive Language Image Image Text Pair CLIP Model CLIP Training Text Region Adversarial Region
Scene Text Recognition with Image-Text Matching-guided Dictionary
Jiajun Wei, Hongjian Zhan, Xiao Tu, Yue Lu, Umapada Pal
Contrastive Language Image Image Text Pair Scene Text Recognition Scene Text Image Text Matching

May 2, 2023

VPGTrans: Transfer Visual Prompt Generator across LLMs
Ao Zhang, Hao Fei, Yuan Yao, Wei Ji, Li Li, Zhiyuan Liu, Tat-Seng Chua
Medical LLM Image Text Pair Multimodal LLM Visual Prompt

April 27, 2023

VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias
Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis
Cross Modal Image Text Pair Misinformation Detection Multimodal Misinformation Unimodal Bias

April 11, 2023

April 10, 2023

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment
Lewei Yao, Jianhua Han, Xiaodan Liang, Dan Xu, Wei Zhang, Zhenguo Li, Hang Xu
Image Text Pair Open Vocabulary Object Detection Open Vocabulary Detection Region Word Alignment

March 31, 2023

DIME-FM: DIstilling Multimodal and Efficient Foundation Models
Ximeng Sun, Pengchuan Zhang, Peizhao Zhang, Hardik Shah, Kate Saenko, Xide Xia
Foundation Model Supervised ImageNet Image Text Pair Image Caption Pair Common Coin Pre Trained CLIP Multimodal Distillation

March 30, 2023

Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime
Rhydian Windsor, Amir Jamaludin, Timor Kadir, Andrew Zisserman
Vision Language Model Image Text Pair Radiology Imaging Low Data Regime Text to Image Retrieval Bethesda Report

March 23, 2023

March 10, 2023

Tag2Text: Guiding Vision-Language Model via Image Tagging
Xinyu Huang, Youcai Zhang, Jinyu Ma, Weiwei Tian, Rui Feng, Yuejie Zhang, Yaqian Li, Yandong Guo, Lei Zhang
Vision Language Model Image Text Pair Image Tagging

March 5, 2023

VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media Reasoning
Kang Chen, Xiangqian Wu
Visual Question Answering Image Text Pair Scene Understanding Video Representation Entity Alignment

March 2, 2023

BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs
Sheng Zhang, Yanbo Xu, Naoto Usuyama, Hanwen Xu, Jaspreet Bagga, Robert Tinn, Sam Preston, Rajesh Rao, Mu Wei, Naveen Valluri, Cliff Wong, Andrea Tupini, Yu Wang, Matt Mazzola, Swadheen Shukla, Lars Liden, Jianfeng Gao, Matthew P. Lungren, Tristan Naumann, Sheng Wang, Hoifung Poon
Foundation Model Image Text Pair Medical Image Datasets Image Text

January 17, 2023

January 16, 2023

Linguistic Query-Guided Mask Generation for Referring Image Segmentation
Zhichao Wei, Xiaohao Chen, Mingqiang Chen, Siyu Zhu
Image Text Pair Cross Modal Alignment Referring Image Segmentation Mask Generation

January 5, 2023

CiT: Curation in Training for Effective Vision-Language Data
Hu Xu, Saining Xie, Po-Yao Huang, Licheng Yu, Russell Howes, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer
Training Data Large Vision Language Model Image Text Pair Automatic Curation Text Contrastive Learning

December 13, 2022

CREPE: Can Vision-Language Foundation Models Reason Compositionally?
Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, Ranjay Krishna
Foundation Model Image Text Pair Scene Graph Compositional Language Compositional Nature Compositionality Benchmark

December 1, 2022

Scaling Language-Image Pre-training via Masking
Yanghao Li, Haoqi Fan, Ronghang Hu, Christoph Feichtenhofer, Kaiming He
Image Text Pair Supervised Baseline Image Patch Efficient Image

Papers

Less is More: Removing Text-regions Improves CLIP Training Efficiency and Robustness

Scene Text Recognition with Image-Text Matching-guided Dictionary

VPGTrans: Transfer Visual Prompt Generator across LLMs

VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias

MoMo: A shared encoder Model for text, image and multi-Modal representations

ELVIS: Empowering Locality of Vision Language Pre-training with Intra-modal Similarity

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment

DIME-FM: DIstilling Multimodal and Efficient Foundation Models

Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime

Three ways to improve feature alignment for open vocabulary detection

CoBIT: A Contrastive Bi-directional Image-Text Generation Model

Tag2Text: Guiding Vision-Language Model via Image Tagging

VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media Reasoning

BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs

Learning Customized Visual Models with Retrieval-Augmented Knowledge

Vision Learners Meet Web Image-Text Pairs

Linguistic Query-Guided Mask Generation for Referring Image Segmentation

CiT: Curation in Training for Effective Vision-Language Data

CREPE: Can Vision-Language Foundation Models Reason Compositionally?

Scaling Language-Image Pre-training via Masking