Image Text

Image-text research focuses on developing models that understand and generate relationships between visual and textual information, aiming to bridge the gap between these modalities. Current research emphasizes improving the robustness and efficiency of vision-language models (VLMs) like CLIP, often through techniques such as prompt engineering, contrastive learning, and specialized datasets for domains like medicine and agriculture. This work is significant because it enables advancements in various applications, including medical image analysis, agricultural monitoring, and improved multimodal large language models (MLLMs), ultimately leading to more accurate and efficient AI systems.

Papers

June 15, 2024

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation
Wei Chen, Lin Li, Yongqi Yang, Bin Wen, Fan Yang, Tingting Gao, Yu Wu, Long Chen
Data Set Multimodal Large Language Model Faithful Generation Timely Communication Image Text Multimodal Understanding Multimodal Content Interleaving Method Multimodal in Context Learning Image Text Multimodal

June 12, 2024

Advancing High Resolution Vision-Language Models in Biomedicine
Zekai Chen, Arda Pekis, Kevin Brown
Vision Language Model Multi Modal High Resolution Image Text Medical AI Multi Modal Learning Fine Grained Visual Biomedical Research

June 11, 2024

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models
Tianle Gu, Zeyang Zhou, Kexin Huang, Dandan Liang, Yixu Wang, Haiquan Zhao, Yuanqi Yao, Xingge Qiao, Keqing Wang, Yujiu Yang, Yan Teng, Yu Qiao, Yingchun Wang
Multimodal Large Language Model Image Text Safety Evaluation MLLM Security

June 10, 2024

June 7, 2024

Text-Guided Alternative Image Clustering
Andreas Stephan, Lukas Miklautz, Collin Leiber, Pedro Henrique Luz de Araujo, Dominik Répás, Claudia Plant, Benjamin Roth
Large Vision Language Model Image Text Image Clustering Consensus Clustering

May 27, 2024

Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR
Zhenyang Li, Yangyang Guo, Kejie Wang, Xiaolin Chen, Liqiang Nie, Mohan Kankanhalli
Empirical Study Visual Reasoning Image Text Visual Commonsense Reasoning Visual Commonsense Vision Language Transformer Commonsense Transformer

May 20, 2024

Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography
Shantanu Ghosh, Clare B. Poynton, Shyam Visweswaran, Kayhan Batmanghelich
Native Robustness Computer Vision Image Text Vision Language Foundation Model Mammography Report Breast Cancer Detection Digital Mammogram Data Efficiency

April 27, 2024

Medical Vision-Language Pre-Training for Brain Abnormalities
Masoud Monajatipoor, Zi-Yi Dou, Aichi Chien, Nanyun Peng, Kai-Wei Chang
Vision Language Model Image Text Medical Vision Language Pre Training Brain Disorder

April 23, 2024

CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios
Jingyang Lin, Yingda Xia, Jianpeng Zhang, Ke Yan, Le Lu, Jiebo Luo, Ling Zhang
Contrastive Learning Medical Image Computed Tomography Radiology Report Image Text Medical Vision Low Level Vision

April 5, 2024

Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation
Ji-Jia Wu, Andy Chia-Hao Chang, Chieh-Yu Chuang, Chun-Pei Chen, Yu-Lun Liu, Min-Hung Chen, Hou-Ning Hu, Yung-Yu Chuang, Yen-Yu Lin
Semantic Segmentation Image Text Pair Image Text Text Supervised Semantic Segmentation

April 3, 2024

What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases
Anthony Meng Huat Tiong, Junqi Zhao, Boyang Li, Junnan Li, Steven C. H. Hoi, Caiming Xiong
General Analysis Vision Language Large Vision Language Model Image Text Topic Bias Latent Factor

March 22, 2024

CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model
Seungdae Han, Joohee Kim
Diffusion Model Image Generation Single CLIP Training Free Image Text Image Generation Model CLIP Model Conditional Image Generation

March 11, 2024

SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data
Jialu Li, Jaemin Cho, Yi-Lin Sung, Jaehong Yoon, Mohit Bansal
LeArning Abstract Text to Image Image Text Pair Image Text Semantic Alignment

March 10, 2024

A streamlined Approach to Multimodal Few-Shot Class Incremental Learning for Fine-Grained Datasets
Thang Doan, Sima Behpour, Xin Li, Wenbin He, Liang Gou, Liu Ren
Fine Grained Vision Language Model Class Incremental Learning Multimodal Phenomenon Image Text Pair Image Text Streamlined Approach

March 5, 2024

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters
Weizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang
Image Text Multimodal Language Model High Quality Instruction Data Data Filtering

February 17, 2024

ChatEarthNet: A Global-Scale Image-Text Dataset Empowering Vision-Language Geo-Foundation Models
Zhenghang Yuan, Zhitong Xiong, Lichao Mou, Xiao Xiang Zhu
Data Set Image Text Vision Language Foundation Model Global Scale

February 5, 2024

Text-Guided Image Clustering
Andreas Stephan, Lukas Miklautz, Kevin Sidak, Jan Philip Wahle, Bela Gipp, Claudia Plant, Benjamin Roth
Text Representation Image Text Image Clustering Explainable Clustering

January 29, 2024

M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining
Qingpei Guo, Furong Xu, Hanxiao Zhang, Wang Ren, Ziping Ma, Lin Ju, Jian Wang, Jingdong Chen, Ming Yang
Human Understanding Image Text Vision Language Foundation Model Large Scale Pretraining Encoder Architecture Imagenet C

January 26, 2024

Memory-Inspired Temporal Prompt Interaction for Text-Image Classification
Xinyao Yu, Hao Sun, Ziwei Niu, Rui Qin, Zhenjia Bai, Yen-Wei Chen, Lanfen Lin
Image Text Human Memory Temporal Prompt

Image Text

Papers

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

Advancing High Resolution Vision-Language Models in Biomedicine

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics

Robust Latent Representation Tuning for Image-text Classification

Text-Guided Alternative Image Clustering

Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR

Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography

Medical Vision-Language Pre-Training for Brain Abnormalities

CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios

Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation

What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases

CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model

SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data

A streamlined Approach to Multimodal Few-Shot Class Incremental Learning for Fine-Grained Datasets

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

ChatEarthNet: A Global-Scale Image-Text Dataset Empowering Vision-Language Geo-Foundation Models

Text-Guided Image Clustering

M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining

Memory-Inspired Temporal Prompt Interaction for Text-Image Classification