Image Text

Image-text research focuses on developing models that understand and generate relationships between visual and textual information, aiming to bridge the gap between these modalities. Current research emphasizes improving the robustness and efficiency of vision-language models (VLMs) like CLIP, often through techniques such as prompt engineering, contrastive learning, and specialized datasets for domains like medicine and agriculture. This work is significant because it enables advancements in various applications, including medical image analysis, agricultural monitoring, and improved multimodal large language models (MLLMs), ultimately leading to more accurate and efficient AI systems.

Papers

January 9, 2024

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding
Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
Domain Specific Image Text High Quality Image Image Caption Pair Image Captioning Model Large Scale Annotated Visual Expert Web Scale Shopping Intent

January 4, 2024

SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment
Ziping Ma, Furong Xu, Jian Liu, Ming Yang, Qingpei Guo
Contrastive Language Image Image Text Multimodal Alignment Attention Masking Contrastive Captioners

January 3, 2024

MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning
Jiarun Liu, Hong-Yu Zhou, Cheng Li, Weijian Huang, Hao Yang, Yong Liang, Shanshan Wang
Medical Image Contrastive Language Image Image Text Pair Image Text Masked Supervised Learning

December 23, 2023

Prompt-Propose-Verify: A Reliable Hand-Object-Interaction Data Generation Framework using Foundational Models
Gurusha Juneja, Sukrit Kumar
Diffusion Model Image Generation Hand Object Interaction Image Text Stable Diffusion Model Foundational Model Prompt Space

December 21, 2023

Parrot Captions Teach CLIP to Spot Text
Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou
Single CLIP Image Text Visual Text Text Spotting CLIP Score Image Text Datasets Captioning Evaluation

December 20, 2023

SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing
Zhecheng Wang, Rajanie Prabha, Tianyuan Huang, Jiajun Wu, Ram Rajagopal
Vision Language Remote Sensing Remote Sensing Image Image Text

December 14, 2023

WIT-UAS: A Wildland-fire Infrared Thermal Dataset to Detect Crew Assets From Aerial Views
Andrew Jong, Mukai Yu, Devansh Dhrafani, Siva Kailas, Brady Moon, Katia Sycara, Sebastian Scherer
Aerial Image Image Text Individual Production Asset Fire Segmentation

December 11, 2023

Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data
Lei Zhang, Fangxun Shu, Tianyang Liu, Sucheng Ren, Hao Jiang, Cihang Xie
Image Text Pair Image Text LD Align Image Text Datasets

November 30, 2023

MLLMs-Augmented Visual-Language Representation Learning
Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang, Yang You
Vision Language Multi Modal Large Language Model Language Representation Image Text Text to Image Association

November 28, 2023

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel
Image Text Captioning Model Multi Modal Training Image Text Model CLIP Vision Encoder CLIP Training

November 23, 2023

Hardware Resilience Properties of Text-Guided Image Classifiers
Syed Talal Wasim, Kabila Haile Soboka, Abdulrahman Mahmoud, Salman Khan, David Brooks, Gu-Yeon Wei
Pytorch Model Text Embeddings Image Text Image Classification Model Classification Layer

November 1, 2023

ChatGPT-Powered Hierarchical Comparisons for Image Classification
Zhiyuan Ren, Yiyang Su, Xiaoming Liu
Large Language Model Vision Language Model Image Classification Image Text Zero Shot Open Vocabulary

October 7, 2023

Analyzing Zero-Shot Abilities of Vision-Language Models on Video Understanding Tasks
Avinash Madasu, Anahita Bhiwandiwalla, Vasudev Lal
Vision Language Model Critique Ability Image Text Video Understanding Task Text Video Pair Video Text Model

October 5, 2023

Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency
Tianhong Li, Sangnie Bhardwaj, Yonglong Tian, Han Zhang, Jarred Barber, Dina Katabi, Guillaume Lajoie, Huiwen Chang, Dilip Krishnan
Text to Image Generation Image Text Unpaired Data Image to Text Cycle Consistency Generative Vision Language Model Joint Image Text Image Text Correlation

September 27, 2023

Tackling VQA with Pretrained Foundation Models without Further Training
Alvin De Jun Tan, Bingquan Shen
Large Language Model Foundation Model Visual Question Answering Text Embeddings Image Text

August 3, 2023

RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic and Regional Comprehension
Qiang Zhou, Chaohui Yu, Shaofeng Zhang, Sitong Wu, Zhibing Wang, Fan Wang
Point Cloud New Framework Multi Modal Large Language Model Region Specific Unified Alignment Image Text Holistic Approach LoRA Module

July 28, 2023

RSGPT: A Remote Sensing Vision Language Model and Benchmark
Yuan Hu, Jianlong Yuan, Congcong Wen, Xiaonan Lu, Xiang Li
New Benchmark Computer Vision Large Vision Language Model Generated Caption Image Text Recognition Task Remote Sensing Vision Language

July 22, 2023

Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?
Cheng-En Wu, Yu Tian, Haichao Yu, Heng Wang, Pedro Morgado, Yu Hen Hu, Linjie Yang
Vision Language Model Noisy Label Prompt Tuning Style PROMPT Image Text Shot Prompt Tuning

July 15, 2023

Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image Classification and Generation
Victor Gallego
Faithful Generation Large Multimodal Model Image Text Fast Adaptation Preference Prediction Bradley Terry

June 14, 2023

Extending CLIP's Image-Text Alignment to Referring Image Segmentation
Seoyeon Kim, Minguk Kang, Dongwon Kim, Jaesik Park, Suha Kwak
Cross Modal Single CLIP Image Text Image Text Alignment Referring Image Segmentation Cross Modal Task

Image Text

Papers

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding

SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment

MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning

Prompt-Propose-Verify: A Reliable Hand-Object-Interaction Data Generation Framework using Foundational Models

Parrot Captions Teach CLIP to Spot Text

SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing

WIT-UAS: A Wildland-fire Infrared Thermal Dataset to Detect Crew Assets From Aerial Views

Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data

MLLMs-Augmented Visual-Language Representation Learning

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

Hardware Resilience Properties of Text-Guided Image Classifiers

ChatGPT-Powered Hierarchical Comparisons for Image Classification

Analyzing Zero-Shot Abilities of Vision-Language Models on Video Understanding Tasks

Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency

Tackling VQA with Pretrained Foundation Models without Further Training

RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic and Regional Comprehension

RSGPT: A Remote Sensing Vision Language Model and Benchmark

Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?

Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image Classification and Generation

Extending CLIP's Image-Text Alignment to Referring Image Segmentation