Referring Image Segmentation

Referring image segmentation (RIS) aims to identify and segment objects within an image based on a natural language description, bridging the gap between computer vision and natural language processing. Current research heavily focuses on improving cross-modal alignment between visual and textual information, employing transformer-based architectures and exploring techniques like early fusion, multi-modal attention, and iterative refinement to enhance accuracy and efficiency. Advances in RIS have significant implications for various applications, including robotics, medical image analysis, and autonomous driving, by enabling more sophisticated interaction between machines and human instructions.

Papers

September 20, 2022

Towards Robust Referring Image Segmentation
Jianzong Wu, Xiangtai Li, Xia Li, Henghui Ding, Yunhai Tong, Dacheng Tao
Visual Token Referring Image Segmentation

March 31, 2022

ReSTR: Convolution-free Referring Image Segmentation Using Transformers
Namyup Kim, Dongwon Kim, Cuiling Lan, Wenjun Zeng, Suha Kwak
Convolutional Neural Network Semantic Segmentation Transformer Megatron Decepticons Self Attention Image Segmentation Referring Image Segmentation Rest RESTAD NAP Segmentation Module

December 24, 2021

Grounding Linguistic Commands to Navigable Regions
Nivedita Rufus, Kanishk Jain, Unni Krishnan R Nair, Vineet Gandhi, K Madhava Krishna
Autonomous Vehicle Referring Image Segmentation Natural Language Command Planning Pipeline Navigable Region

December 4, 2021

LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, Philip H. S. Torr
Cross Modal Alignment Modal Feature Vision Encoders Referring Image Segmentation Vision Language Transformer

November 30, 2021

CRIS: CLIP-Driven Referring Image Segmentation
Zhaoqing Wang, Yu Lu, Qiang Li, Xunqiang Tao, Yandong Guo, Mingming Gong, Tongliang Liu
Image Segmentation Text to Image Contrastive Language Image Textual Representation Referring Image Segmentation Pixel Level Alignment

November 21, 2021

MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation
Zizhang Li, Mengmeng Wang, Jianbiao Mei, Yong Liu
Cross Modal Interaction Referring Image Segmentation Trimodal Network