Contrastive Language Image

Contrastive Language-Image Pre-training (CLIP) models aim to learn joint representations of images and text, enabling zero-shot image classification and other multimodal tasks. Current research focuses on improving CLIP's localization capabilities, robustness to various data variations (including 3D data and low-light conditions), and efficiency through techniques like knowledge distillation and mixture-of-experts architectures. These advancements are significant for enhancing the reliability and applicability of CLIP in diverse fields, including medical image analysis, robotics, and AI-generated content detection.

Papers

May 24, 2024

CLIP model is an Efficient Online Lifelong Learner
Leyuan Wang, Liuyu Xiang, Yujie Wei, Yunlong Wang, Zhaofeng He
Vision Language Model Contrastive Language Image Lifelong Learning

May 14, 2024

Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation
Jin Wang, Bingfeng Zhang, Jian Pang, Honglong Chen, Weifeng Liu
Segmentation Based Approach Contrastive Language Image Shot Segmentation Prior Model Text Alignment Visual Prior

April 30, 2024

April 24, 2024

April 23, 2024

Adaptive Prompt Learning with Negative Textual Semantics and Uncertainty Modeling for Universal Multi-Source Domain Adaptation
Yuxiang Yang, Lu Wen, Yuanyuan Xu, Jiliu Zhou, Yan Wang
Prompt Learning Contrastive Language Image Uncertainty Modeling Text Semantics Unimodal Classifier Domain Representation

April 22, 2024

CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding
Guibiao Liao, Jiankun Li, Zhenyu Bao, Xiaoqing Ye, Jingdong Wang, Qing Li, Kanglin Liu
Gaussian Splatting Real Time 3D Gaussian Contrastive Language Image RSD Difference of Gaussian 3D Semantic Understanding

April 9, 2024

CLIP-Embed-KD: Computationally Efficient Knowledge Distillation Using Embeddings as Teachers
Lakshmi Nair
Knowledge Distillation Jina Embeddings Contrastive Language Image Good Teacher

April 2, 2024

RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement
Tatiana Gaintseva, Martin Benning, Gregory Slabaugh
Contrastive Language Image Low Light Image Enhancement Residual Vector

March 22, 2024

March 20, 2024

RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition
Ziyu Liu, Zeyi Sun, Yuhang Zang, Wei Li, Pan Zhang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
Fine Grained Multimodal Large Language Model Contrastive Language Image Visual Recognition Fine Grained Recognition Shot Recognition

March 19, 2024

CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation
Wenqi Zhu, Jiale Cao, Jin Xie, Shuangming Yang, Yanwei Pang
Contrastive Language Image Open Vocabulary Video Instance Segmentation Open Vocabulary Video Instance Segmentation

March 18, 2024

Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity
Siddharth Joshi, Arnav Jain, Ali Payani, Baharan Mirzasoleiman
Contrastive Language Image Data Efficient Image Caption Quantity Aware Zero Shot Generalization

March 15, 2024

RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training
Zhixiu Lu, Hailong Li, Nehal A. Parikh, Jonathan R. Dillman, Lili He
Contrastive Language Image Image Analysis Radiology Image Report Pair

March 13, 2024

PAPERCLIP: Associating Astronomical Observations and Natural Language with Multi-Modal Models
Siddharth Mishra-Sharma, Yiding Song, Jesse Thaler
Natural Language Contrastive Language Image Multi Modal Model Astronomical Data Natural Language Query