Referring Video Object Segmentation

Referring video object segmentation (RVOS) aims to identify and segment a specific object within a video based on a natural language description. Current research heavily utilizes transformer-based architectures, often incorporating techniques like multi-modal fusion, temporal consistency modeling, and efficient adaptation from pre-trained models (e.g., Segment Anything Model) to improve accuracy and reduce computational demands. This field is significant because it bridges computer vision and natural language processing, enabling more intuitive and robust video analysis for applications such as video editing, autonomous driving, and assistive technologies. Recent work also emphasizes handling challenging scenarios like limited annotations and semantic mismatches between descriptions and video content.

Papers

May 26, 2023

SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation
Zhuoyan Luo, Yicheng Xiao, Yong Liu, Shuyan Li, Yitong Wang, Yansong Tang, Xiu Li, Yujiu Yang
Cross Modal Alignment Referring Video Object Segmentation Frame Embeddings

July 26, 2022

Multi-Attention Network for Compressed Video Referring Object Segmentation
Weidong Chen, Dexiang Hong, Yuankai Qi, Zhenjun Han, Shuhui Wang, Laiyun Qing, Qingming Huang, Guorong Li
Segmentation Task Referring Video Object Segmentation Cross Modal Transformer Multi Attention

July 4, 2022

Towards Robust Referring Video Object Segmentation with Cyclic Relational Consensus
Xiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Bhiksha Raj, Yan Lu
Referring Video Object Segmentation Text Video Pair Consensus Graph R Vos

June 8, 2022

Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation
Zihan Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Jizhong Han, Si Liu
Spatial Encoder Temporal Interaction Referring Video Object Segmentation Temporal Encoder

March 30, 2022

Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation
Guang Feng, Lihe Zhang, Zhiwei Hu, Huchuan Lu
Multi Scale Temporal Feature Video Segmentation Multi Modal Feature Referring Video Object Segmentation Video Object Stream Encoder

March 18, 2022

Local-Global Context Aware Transformer for Language-Guided Video Segmentation
Chen Liang, Wenguan Wang, Tianfei Zhou, Jiaxu Miao, Yawei Luo, Yi Yang
Video Representation Video Object Segmentation Video Segmentation Referring Video Object Segmentation Context Aware Transformer

January 3, 2022

Language as Queries for Referring Video Object Segmentation
Jiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo
Human Language Segmentation Mask Query Information Convolutional Filter Referring Video Object Segmentation

November 29, 2021

End-to-End Referring Video Object Segmentation with Multimodal Transformers
Adam Botach, Evgenii Zheltonozhskii, Chaim Baskin
Video Understanding Video Object Segmentation Multimodal Transformer Multi Modal Task Referring Video Object Segmentation