CLIP Model

CLIP (Contrastive Language–Image Pre-training) models are powerful multimodal architectures designed to learn joint representations of images and text, enabling zero-shot and few-shot learning across various vision-language tasks. Current research focuses on mitigating biases, improving efficiency through parameter-efficient fine-tuning and adapter methods, enhancing interpretability, and addressing challenges in low-resource languages and long-tailed distributions. These advancements are significant because they improve the robustness, fairness, and applicability of CLIP models in diverse real-world applications, ranging from image retrieval and classification to robotics and medical image analysis.

Papers

June 12, 2024

Updating CLIP to Prefer Descriptions Over Captions
Amir Zur, Elisa Kreiss, Karel D'Oosterlinck, Christopher Potts, Atticus Geiger
Single CLIP High Similarity Generated Caption Description Library CLIP Model Interpretable Structure

May 25, 2024

An Empirical Study of Excitation and Aggregation Design Adaptions in CLIP4Clip for Video-Text Retrieval
Xiaolun Jing, Genke Yang, Jian Chu
Empirical Study Video Text Retrieval CLIP Model Active Excitation Aggregation Strategy Semantic Aggregation

May 23, 2024

Identity Inference from CLIP Models using Only Textual Data
Songze Li, Ruoxi Cheng, Xiaojun Jia
Membership Inference Attack CLIP Model Identity Inference

May 14, 2024

CLIP with Quality Captions: A Strong Pretraining for Vision Tasks
Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Oncel Tuzel
Semantic Segmentation Pre Trained Model Single CLIP Vision Task CLIP Model Dense Visual Prediction

April 15, 2024

Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models
Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön
Vision Language Model Wild Challenge Image Restoration CLIP Model

March 22, 2024

CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model
Seungdae Han, Joohee Kim
Diffusion Model Image Generation Single CLIP Training Free Image Text Image Generation Model CLIP Model Conditional Image Generation

March 5, 2024

What do we learn from inverting CLIP models?
Hamid Kazemi, Atoosa Chegini, Jonas Geiping, Soheil Feizi, Tom Goldstein
Complex Prompt Semantic Alignment CLIP Model Model Inversion

March 1, 2024

Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model
Huan Ma, Yan Zhu, Changqing Zhang, Peilin Zhao, Baoyuan Wu, Long-Kai Huang, Qinghua Hu, Bingzhe Wu
Adaptation Concern Vision Language Foundation Model CLIP Model Fine Grained Image Classification Pre Trained Feature Feature Forgetting

February 28, 2024

Automatic Creative Selection with Cross-Modal Matching
Alex Kim, Jia Huang, Rob Monarch, Jerry Kwac, Anikesh Kamath, Parmeshwar Khurd, Kailash Thiyagarajan, Goodman Gu
Matching Accuracy CLIP Model Image Text Matching Cross Modal Matching Automatic Selection

February 26, 2024

Impression-CLIP: Contrastive Shape-Impression Embedding for Fonts
Yugo Kubota, Daichi Haraguchi, Seiichi Uchida
CLIP Model Text Shape Font Style Impression Generation

January 18, 2024

CLIP Model for Images to Textual Prompts Based on Top-k Neighbors
Xin Zhang, Xin Zhang, YeMing Cai, Tianzhi Jia
Generative Model Image Generation Text to Image Synthesis CLIP Model Multimodal Generation Textual Prompt Hop Neighbor

December 16, 2023

RetailKLIP : Finetuning OpenCLIP backbone using metric learning on a single GPU for Zero-shot retail product image classification
Muktabh Mayank Srivastava
Zero Shot Deep Model Metric Learning CLIP Model Vision Encoders Computer Vision Application Product Classification Incremental Training

December 7, 2023

iDesigner: A High-Resolution and Complex-Prompt Following Text-to-Image Diffusion Model for Interior Design
Ruyi Gan, Xiaojun Wu, Junyu Lu, Yuanhe Tian, Dixiang Zhang, Ziwei Wu, Renliang Sun, Chang Liu, Jiaxing Zhang, Pingjian Zhang, Yan Song
Image Generation Text to Image Diffusion Model Text to Image Model High Resolution Indoor Environment CLIP Model Auditing Delphi

December 1, 2023

LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models
Ying Nie, Wei He, Kai Han, Yehui Tang, Tianyu Guo, Fanyi Du, Yunhe Wang
Fine Grained Image Text Pair Token Level CLIP Model Efficient Vision Language Model Level Interaction

November 6, 2023

CLIP-Motion: Learning Reward Functions for Robotic Actions Using Consecutive Observations
Xuzhe Dang, Stefan Edelkamp, Nicolas Ribault
Reward Function Robot Motion Robot Action CLIP Model Reward Function Design Sequential Observation

October 24, 2023

TiC-CLIP: Continual Training of CLIP Models
Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri
Vision Language Model Continual Learning CLIP Model Continual Learning Benchmark Continuous Variable Continual Training Temporal Robustness

October 18, 2023

On the use of Vision-Language models for Visual Sentiment Analysis: a study on CLIP
Cristina Bustos, Carles Civit, Brian Du, Albert Sole-Ribalta, Agata Lapedriza
Vision Language Model Sentiment Analysis Study Feature Large Vision Language Model Greater Public Use Single CLIP CLIP Model Sentiment Analysis Benchmark

October 8, 2023

GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval
Yuting Wang, Jinpeng Wang, Bin Chen, Ziyun Zeng, Shu-Tao Xia
CLIP Model Video Retrieval Large Scale Video CLIP Level

August 22, 2023

CLIP Multi-modal Hashing: A new baseline CLIPMH
Jian Zhu, Mingkai Sheng, Mingda Ke, Zhangmin Huang, Jingfei Chang
CLIP Model Cross Modal Hashing Multimedia Retrieval

August 21, 2023

Turning a CLIP Model into a Scene Text Spotter
Wenwen Yu, Yuliang Liu, Xingkui Zhu, Haoyu Cao, Xing Sun, Xiang Bai
Contrastive Language Image Visual Prompt Text Detection Scene Text Scene Text Detection CLIP Model Text Detector

CLIP Model

Papers

Updating CLIP to Prefer Descriptions Over Captions

An Empirical Study of Excitation and Aggregation Design Adaptions in CLIP4Clip for Video-Text Retrieval

Identity Inference from CLIP Models using Only Textual Data

CLIP with Quality Captions: A Strong Pretraining for Vision Tasks

Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models

CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model

What do we learn from inverting CLIP models?

Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model

Automatic Creative Selection with Cross-Modal Matching

Impression-CLIP: Contrastive Shape-Impression Embedding for Fonts

CLIP Model for Images to Textual Prompts Based on Top-k Neighbors

RetailKLIP : Finetuning OpenCLIP backbone using metric learning on a single GPU for Zero-shot retail product image classification

iDesigner: A High-Resolution and Complex-Prompt Following Text-to-Image Diffusion Model for Interior Design

LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models

CLIP-Motion: Learning Reward Functions for Robotic Actions Using Consecutive Observations

TiC-CLIP: Continual Training of CLIP Models

On the use of Vision-Language models for Visual Sentiment Analysis: a study on CLIP

GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval

CLIP Multi-modal Hashing: A new baseline CLIPMH

Turning a CLIP Model into a Scene Text Spotter