Image Text Pair

Image-text pairs are fundamental to training multimodal models that understand and generate both visual and textual information. Current research focuses on improving the alignment between image and text representations, often employing contrastive learning, multi-graph alignment, and various attention mechanisms within transformer-based architectures. These advancements aim to address challenges like data scarcity, compositional understanding, and robustness to noise and adversarial attacks, ultimately leading to more accurate and efficient vision-language models. The resulting improvements have significant implications for various applications, including image retrieval, text-to-image generation, and medical image analysis.

Papers

April 5, 2024

Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation
Ji-Jia Wu, Andy Chia-Hao Chang, Chieh-Yu Chuang, Chun-Pei Chen, Yu-Lun Liu, Min-Hung Chen, Hou-Ning Hu, Yung-Yu Chuang, Yen-Yu Lin
Semantic Segmentation Image Text Pair Image Text Text Supervised Semantic Segmentation

March 29, 2024

Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models
Jesse Atuhurra, Iqra Ali, Tatsuya Hiraoka, Hidetaka Kamigaito, Tomoya Iwakura, Taro Watanabe
Vision Language Model Image Text Pair Multilingual Ability

March 28, 2024

Text Data-Centric Image Captioning with Interactive Prompts
Yiyu Wang, Hao Luo, Jungang Xu, Yingfei Sun, Fan Wang
Image Captioning Image Text Pair Captioning Method Image Embeddings Structured Prompt

March 27, 2024

Toward Interactive Regional Understanding in Vision-Large Language Models
Jungbeom Lee, Sanghyuk Chun, Sangdoo Yun
Large Vision Language Model Image Text Pair Image Region Global Image Feature

March 26, 2024

Semi-Supervised Image Captioning Considering Wasserstein Graph Matching
Yang Yang
Cross Modal Image Captioning Image Text Pair

March 24, 2024

Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval
Yucheng Suo, Fan Ma, Linchao Zhu, Yi Yang
Image Text Pair Image Retrieval Zero Shot Composed Image Retrieval

March 22, 2024

Long-CLIP: Unlocking the Long-Text Capability of CLIP
Beichen Zhang, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Jiaqi Wang
Text to Image Generation Contrastive Language Image Image Text Pair Long Text Image Caption Retrieval

March 11, 2024

SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data
Jialu Li, Jaemin Cho, Yi-Lin Sung, Jaehong Yoon, Mohit Bansal
LeArning Abstract Text to Image Image Text Pair Image Text Semantic Alignment

March 10, 2024

A streamlined Approach to Multimodal Few-Shot Class Incremental Learning for Fine-Grained Datasets
Thang Doan, Sima Behpour, Xin Li, Wenbin He, Liang Gou, Liu Ren
Fine Grained Vision Language Model Class Incremental Learning Multimodal Phenomenon Image Text Pair Image Text Streamlined Approach

March 5, 2024

VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing
Zhiyuan Chang, Mingyang Li, Junjie Wang, Cheng Li, Qing Wang
Image Text Pair Single Modality Visual Entailment Multi Modal Reasoning Sentence Image Pair

February 16, 2024

VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models
Ziyi Yin, Muchao Ye, Tianrong Zhang, Jiaqi Wang, Han Liu, Jinghui Chen, Ting Wang, Fenglong Ma
Pre Trained Model Visual Question Answering Image Text Pair Visual Question Transferable Adversarial Attack VQA System

January 24, 2024

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval
Siwei Wu, Yizhi Li, Kang Zhu, Ge Zhang, Yiming Liang, Kaijing Ma, Chenghao Xiao, Haoran Zhang, Bohao Yang, Wenhu Chen, Wenhao Huang, Noura Al Moubayed, Jie Fu, Chenghua Lin
Multi Modal Image Text Pair

January 20, 2024

Large-scale Reinforcement Learning for Diffusion Models
Yinan Zhang, Eric Tzeng, Yilun Du, Dmitry Kislyuk
Diffusion Model Image Generation Text to Image Diffusion Model Image Text Pair Large Scale Reinforcement Learning

January 18, 2024

CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly Supervised Text-based Person Re-Identification
Yanwei Zheng, Xinpeng Zhao, Chuanlin Lan, Xiaowei Zhang, Bowen Huang, Jibin Yang, Dongxiao Yu
Cross Modal Image Text Pair Prototypical Representation Prototypical Contrastive Learning Text Based Person

January 6, 2024

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
Xin He, Longhui Wei, Lingxi Xie, Qi Tian
Multimodal Large Language Model Image Text Pair Generated Caption CLIP Vision Encoder Information Loss Visual Expert

January 3, 2024

MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning
Jiarun Liu, Hong-Yu Zhou, Cheng Li, Weijian Huang, Hao Yang, Yong Liang, Shanshan Wang
Medical Image Contrastive Language Image Image Text Pair Image Text Masked Supervised Learning

December 25, 2023

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos
Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
Text to Image Generation Image Text Pair Text to Video Generation Complete Recipe Video Synthesis

December 21, 2023

TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification
Qinying Liu, Wei Wu, Kecheng Zheng, Zhan Tong, Jiawei Liu, Yu Liu, Wei Chen, Zilei Wang, Yujun Shen
Semantic Segmentation Vision Language Model Multi Label Classification Image Text Pair Vision Language Alignment Multi Attribute

December 19, 2023