Contrastive Language Image

Contrastive Language-Image Pre-training (CLIP) models aim to learn joint representations of images and text, enabling zero-shot image classification and other multimodal tasks. Current research focuses on improving CLIP's localization capabilities, robustness to various data variations (including 3D data and low-light conditions), and efficiency through techniques like knowledge distillation and mixture-of-experts architectures. These advancements are significant for enhancing the reliability and applicability of CLIP in diverse fields, including medical image analysis, robotics, and AI-generated content detection.

Papers

November 28, 2022

SuS-X: Training-Free Name-Only Transfer of Vision-Language Models
Vishaal Udandarao, Ankush Gupta, Samuel Albanie
Vision Language Model Contrastive Language Image Formality Transfer Zero Shot Classification Shot Approach

November 27, 2022

SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation
Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li
Contrastive Language Image Patch Based Open Vocabulary Semantic Segmentation CLIP Model Open Vocabulary Segmentation

November 25, 2022

ComCLIP: Training-Free Compositional Image and Text Matching
Kenan Jiang, Xuehai He, Ruize Xu, Xin Eric Wang
Contrastive Language Image Compositional Generalization Image Text Matching Image Composition Text Matching

November 14, 2022

Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment
Junyang Wang, Yi Zhang, Ming Yan, Ji Zhang, Jitao Sang
Zero Shot Cross Modal Contrastive Language Image Vision Language Alignment Multi Modal Language Model Cross Modal Generation

October 30, 2022

Image-free Domain Generalization via CLIP for 3D Hand Pose Estimation
Seongyeong Lee, Hansoo Park, Dong Uk Kim, Jihyeon Kim, Muhammadjon Boboev, Seungryul Baek
Domain Generalization Single CLIP Contrastive Language Image Hand Pose Estimation Hand Pose Free Domain Generalization

October 17, 2022

October 12, 2022

Hate-CLIPper: Multimodal Hateful Meme Classification based on Cross-modal Interaction of CLIP Features
Gokul Karthik Kumar, Karthik Nandakumar
Contrastive Language Image Cross Modal Interaction Hateful Meme Meme Datasets

October 11, 2022

CLIP also Understands Text: Prompting CLIP for Phrase Understanding
An Yan, Jiacheng Li, Wanrong Zhu, Yujie Lu, William Yang Wang, Julian McAuley
Text Modality Contrastive Language Image Text Encoder Language Supervision Text Understanding

October 8, 2022

CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation
Chenliang Zhou, Fangcheng Zhong, Cengiz Oztireli
Image Editing Contrastive Language Image Interpretable Way Feature Augmentation Input Feature Text Guided Image Manipulation Semantic Face

September 28, 2022

CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention
Ziyu Guo, Renrui Zhang, Longtian Qiu, Xianzheng Ma, Xupeng Miao, Xuming He, Bin Cui
Visual Representation Contrastive Language Image Feature Enhancement Zero Shot Classification Parameter Free Attention

September 27, 2022

September 25, 2022

Collaboration of Pre-trained Models Makes Better Few-shot Learner
Renrui Zhang, Bohao Li, Wei Zhang, Hao Dong, Hongsheng Li, Peng Gao, Yu Qiao
Pre Trained Model Contrastive Language Image Shot Classification Shot Training Shot Learner

September 15, 2022

Exploring Visual Interpretability for Contrastive Language-Image Pre-training
Yi Li, Hualiang Wang, Yiqun Duan, Hang Xu, Xiaomeng Li
Convolutional Neural Network Contrastive Language Image Visual Explanation Visual Interpretation

August 25, 2022

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining
Xiaoyi Dong, Jianmin Bao, Yinglin Zheng, Ting Zhang, Dongdong Chen, Hao Yang, Ming Zeng, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu
Contrastive Language Image Self Distillation Visual Encoder Patch Level Representation

August 10, 2022

Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP
Thao Nguyen, Gabriel Ilharco, Mitchell Wortsman, Sewoong Oh, Ludwig Schmidt
Native Robustness Training Data Pre Training Single CLIP Contrastive Language Image Quality Issue Interaction Generation Robust Generalization Image Text Model

August 4, 2022

Expanding Language-Image Pretrained Models for General Video Recognition
Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, Haibin Ling
Contrastive Language Image Video Recognition Language Image Image Text Representation

July 26, 2022

Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training
Haoxuan You, Luowei Zhou, Bin Xiao, Noel Codella, Yu Cheng, Ruochen Xu, Shih-Fu Chang, Lu Yuan
Contrastive Language Image Multi Modality Visual Representation Learning Semantic Structure Contrastive Pre Training COntrastive Multimodal Pretraining

July 25, 2022

Exploring CLIP for Assessing the Look and Feel of Images
Jianyi Wang, Kelvin C. K. Chan, Chen Change Loy
Contrastive Language Image Image Quality Assessment Glance Annotation Visual Language