Video Reasoning Segmentation

Video reasoning segmentation (VRS) is a new research area focusing on automatically segmenting objects in videos based on complex, natural language instructions that require reasoning and world knowledge, going beyond simple keyword-based queries. Current research emphasizes leveraging the capabilities of large language models (LLMs) combined with video processing techniques to achieve this, often employing architectures that integrate LLMs with mask decoders for temporal segmentation and tracking. This field is significant because it pushes the boundaries of video understanding towards more human-like interaction and reasoning, with potential applications in areas like embodied AI and advanced video editing tools.

Papers

November 15, 2024

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level
Andong Deng, Tongjia Chen, Shoubin Yu, Taojiannan Yang, Lincoln Spencer, Yapeng Tian, Ajmal Saeed Mian, Mohit Bansal, Chen Chen
Human Understanding Spatial Reasoning Video Reasoning Motion Perception Video Reasoning Segmentation

July 18, 2024

ViLLa: Video Reasoning Segmentation with Large Language Model
Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang Zhao
Large Language Model Video Perception Video Reasoning Segmentation

July 16, 2024

VISA: Reasoning Video Object Segmentation via Large Language Models
Cilin Yan, Haochen Wang, Shilin Yan, Xiaolong Jiang, Yao Hu, Guoliang Kang, Weidi Xie, Efstratios Gavves
Segmentation Task Video Object Segmentation Reasoning Segmentation Complex Video Object Segmentation Video Reasoning Segmentation

Video Reasoning Segmentation

Papers

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

ViLLa: Video Reasoning Segmentation with Large Language Model

VISA: Reasoning Video Object Segmentation via Large Language Models