Video Moment Localization

Video moment localization aims to identify the specific time segment within a long, untrimmed video that corresponds to a given natural language description. Current research emphasizes weakly supervised methods, addressing challenges like aligning video and language representations and handling long videos efficiently, often employing transformer-based architectures and novel sampling techniques to manage computational costs. This field is significant for advancing video understanding and has applications in areas such as video retrieval, question answering, and automated video summarization.

Papers

October 11, 2024

VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding
Houlun Chen, Xin Wang, Hong Chen, Zeyang Zhang, Wei Feng, Bin Huang, Jia Jia, Wenwu Zhu
Fine Grained Video Understanding Fine Grained Video Video Corpus Moment Retrieval Video Moment Localization

August 10, 2023

Counterfactual Cross-modality Reasoning for Weakly Supervised Video Moment Localization
Zezhong Lv, Bing Su, Ji-Rong Wen
Cross Modality Video Moment Localization

June 13, 2023

A Survey on Video Moment Localization
Meng Liu, Liqiang Nie, Yunxiao Wang, Meng Wang, Yong Rui
Timely Survey Temporal Action Localization Video Moment Retrieval Video Moment Localization

May 11, 2023

Self-Chained Image-Language Model for Video Localization and Question Answering
Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal
Question Answering Video Language Model Temporal Localization Video Localization Image Language Video Moment Localization

February 26, 2023

Localizing Moments in Long Video Via Multimodal Guidance
Wayner Barrios, Mattia Soldan, Alberto Mario Ceballos-Arroyo, Fabian Caba Heilbron, Bernard Ghanem
Language Grounding Ego4D Dataset Tool Grounding Video Moment Localization

December 19, 2021

LocFormer: Enabling Transformers to Perform Temporal Moment Localization on Long Untrimmed Videos With a Feature Sampling Approach
Cristian Rodriguez-Opazo, Edison Marrese-Taylor, Basura Fernando, Hiroya Takamura, Qi Wu
Transformer Megatron Decepticons Transformer Based Model Video Content Untrimmed Video Video Encoder Video Moment Localization