Region Text Pair

Region-text pair research focuses on improving the understanding and processing of images by aligning image regions with corresponding textual descriptions. Current efforts concentrate on generating large-scale region-text datasets and developing models, such as variations of CLIP and large language models, that effectively learn from these pairs to achieve fine-grained visual understanding and enable tasks like open-vocabulary object detection and visual question answering. This work is significant because it addresses limitations of existing image-text models that struggle with region-level detail and opens avenues for more nuanced and interactive human-computer interaction involving images.

Papers

May 30, 2024

RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection
Fangyi Chen, Han Zhang, Zhantao Yang, Hao Chen, Kai Hu, Marios Savvides
Open Vocabulary Object Detection Region Text Pair

December 6, 2023

Alpha-CLIP: A CLIP Model Focusing on Wherever You Want
Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
Contrastive Language Image Image Processing Region Text Pair

July 7, 2023

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Yu Liu, Kai Chen, Ping Luo
Large Language Model Human Instruction Visual Instruction Region Text Pair

December 16, 2021

RegionCLIP: Region-based Language-Image Pretraining
Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, Jianfeng Gao
Contrastive Language Image Image Text Pair Unseen Environment Region Embeddings Region Text Pair

Region Text Pair

Papers

RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection

Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

RegionCLIP: Region-based Language-Image Pretraining