Image Text

Image-text research focuses on developing models that understand and generate relationships between visual and textual information, aiming to bridge the gap between these modalities. Current research emphasizes improving the robustness and efficiency of vision-language models (VLMs) like CLIP, often through techniques such as prompt engineering, contrastive learning, and specialized datasets for domains like medicine and agriculture. This work is significant because it enables advancements in various applications, including medical image analysis, agricultural monitoring, and improved multimodal large language models (MLLMs), ultimately leading to more accurate and efficient AI systems.

Papers

May 24, 2023

PathAsst: A Generative Foundation AI Assistant Towards Artificial General Intelligence of Pathology
Yuxuan Sun, Chenglu Zhu, Sunyi Zheng, Kai Zhang, Lin Sun, Zhongyi Shui, Yunlong Zhang, Honglin Li, Lin Yang
Instruction Tuning Artificial General Intelligence Image Text AI Assistant Tissue Pathology Pathology Model Pathology Encoder Path Development

May 12, 2023

Measuring Progress in Fine-grained Vision-and-Language Understanding
Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh
Fine Grained Vision Language Model Much Progress Image Text Vision and Language Fine Grained Vision Language

May 9, 2023

Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval
Shiyin Dong, Mingrui Zhu, Nannan Wang, Xinbo Gao
Cross Domain Image Text LD Align Sketch Based Image Retrieval Unseen Test Distribution Natural Language Based Sketch

April 14, 2023

OPI at SemEval 2023 Task 1: Image-Text Embeddings and Multimodal Information Retrieval for Visual Word Sense Disambiguation
Sławomir Dadas
Related Task Image Text Image Understanding Multimodal Retrieval Multilingual Task Multimodal Embeddings Visual Word Sense Disambiguation

March 23, 2023

March 21, 2023

LIMITR: Leveraging Local Information for Medical Image-Text Representation
Gefen Dawidowicz, Elad Hirsch, Ayellet Tal
Medical Image Analysis Continuum Limit Chest X Ray Image Image Text Local Information

March 2, 2023

BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs
Sheng Zhang, Yanbo Xu, Naoto Usuyama, Hanwen Xu, Jaspreet Bagga, Robert Tinn, Sam Preston, Rajesh Rao, Mu Wei, Naveen Valluri, Cliff Wong, Andrea Tupini, Yu Wang, Matt Mazzola, Swadheen Shukla, Lars Liden, Jianfeng Gao, Matthew P. Lungren, Tristan Naumann, Sheng Wang, Hoifung Poon
Foundation Model Image Text Pair Medical Image Datasets Image Text

March 1, 2023

RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training
Zheng Yuan, Qiao Jin, Chuanqi Tan, Zhengyun Zhao, Hongyi Yuan, Fei Huang, Songfang Huang
Retrieval Augmented Image Text Medical Visual Question Answering Multi Modal Pre Training

January 19, 2023

Masked Autoencoding Does Not Help Natural Language Supervision at Scale
Floris Weers, Vaishaal Shankar, Angelos Katharopoulos, Yinfei Yang, Tom Gunter
Visual Analogue Scale Contrastive Language Image Self Supervision Image Text Visual Encoder Language Supervision Auto Encoders

December 20, 2022

Open-Vocabulary Temporal Action Detection with Off-the-Shelf Image-Text Features
Vivek Rathod, Bryan Seybold, Sudheendra Vijayanarasimhan, Austin Myers, Xiuye Gu, Vighnesh Birodkar, David A. Ross
Optical Flow Image Text Action Detection Fully Supervised Vocabulary Temporal Action Detection

December 13, 2022

TIER: Text-Image Entropy Regularization for CLIP-style models
Anil Palepu, Andrew L. Beam
Contrastive Language Image Image Text Entropy Regularized Patch Embeddings Regularization Scheme Perceptual Image Patch Similarity

November 17, 2022

GLAMI-1M: A Multilingual Image-Text Fashion Dataset
Vaclav Kosar, Antonín Hoskovec, Milan Šulc, Radek Bartyzal
Fine Grained Image Modeling Image Text High Quality Annotation

November 13, 2022

Large-Scale Bidirectional Training for Zero-Shot Image Captioning
Taehoon Kim, Mark Marsden, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee, Alessandra Sala, Seung Hwan Kim
Zero Shot Image Text Bidirectional Training

October 18, 2022

MedCLIP: Contrastive Learning from Unpaired Medical Images and Text
Zifeng Wang, Zhenbang Wu, Dinesh Agarwal, Jimeng Sun
Contrastive Learning Text Modality Image Text Text Contrastive Learning Change Captioning

September 29, 2022

Re-Imagen: Retrieval-Augmented Text-to-Image Generator
Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen
Image Generation Text to Image Generation Image Text

September 28, 2022

Clustering-Induced Generative Incomplete Image-Text Clustering (CIGIT-C)
Dongjin Guo, Xiaoming Su, Jiatai Wang, Limin Liu, Zhiyong Pei, Zhiwei Xu
Generative Question Image Text Modality Specific

September 12, 2022

PreSTU: Pre-Training for Scene-Text Understanding
Jihyung Kil, Soravit Changpinyo, Xi Chen, Hexiang Hu, Sebastian Goodman, Wei-Lun Chao, Radu Soricut
Scene Text Image Text Captioning Benchmark Scene Text Understanding

August 8, 2022

Txt2Img-MHN: Remote Sensing Image Generation from Text Using Modern Hopfield Networks
Yonghao Xu, Weikang Yu, Pedram Ghamisi, Michael Kopp, Sepp Hochreiter
Text Modality Image Generation Text to Image Satellite Image Image Text Text to Image Generation Task

July 26, 2022

NewsStories: Illustrating articles with visual summaries
Reuben Tan, Bryan A. Plummer, Kate Saenko, JP Lewis, Avneesh Sud, Thomas Leung
Self Supervised Image Text Article Centered Factor Large Scale Multimodal Dataset Summary Worthy Visual