Natural Language Video Localization

Natural Language Video Localization (NLVL) aims to pinpoint video segments corresponding to natural language descriptions, a crucial step towards robust video understanding. Current research emphasizes improving the accuracy and efficiency of localization by employing techniques like multi-scale temporal modeling, commonsense reasoning integration, and contrastive learning within transformer-based architectures. These advancements address challenges such as handling temporal dynamics, mitigating false negatives, and improving the precision of boundary detection, ultimately contributing to more sophisticated video search and retrieval systems.

Papers

December 31, 2024

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning
Ling Fu, Biao Yang, Zhebin Kuang, Jiajun Song, Yuzhe Li, Linghao Zhu, Qidi Luo, Xinyu Wang, Hao Lu, Mingxin Huang, Zhang Li, Guozhi Tang, Bin Shan, Chunhui Lin, Qi Liu, Binghong Wu, Hao Feng, Hao Liu, Can Huang, Jingqun Tang, Wei Chen, Lianwen Jin, Yuliang Liu, Xiang Bai
Full Model Complex Reasoning Optical Character Recognition Text Recognition Multilingual Benchmark Text Benchmark Natural Language Video Localization Improved Benchmark

January 16, 2024

Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video Localization
Chongzhi Zhang, Mingyuan Zhang, Zhiyang Teng, Jiayi Li, Xizhou Zhu, Lewei Lu, Ziwei Liu, Aixin Sun
Video Understanding Diffusion Decoder Multi Scale Diffusion Natural Language Video Localization

December 29, 2023

Commonsense for Zero-Shot Natural Language Video Localization
Meghana Holla, Ismini Lourentzou
Commonsense Reasoning Commonsense Knowledge Natural Language Video Localization

August 15, 2023

Is it Really Negative? Evaluating Natural Language Video Localization Performance on Multiple Reliable Videos Pool
Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung
Video Moment Retrieval Video Corpus Moment Retrieval Natural Language Video Localization

May 30, 2023

MS-DETR: Natural Language Video Localization with Sampling Moment-Moment Interaction
Jing Wang, Aixin Sun, Hao Zhang, Xiaoli Li
Open Sampling Moment Retrieval DETR Training Lw Detr Natural Language Video Localization

January 18, 2023

Temporal Perceiving Video-Language Pre-training
Fan Ma, Xiaojie Jin, Heng Wang, Jingjia Huang, Linchao Zhu, Jiashi Feng, Yi Yang
Video Question Answering Temporal Action Localization Video Language Text to Video Retrieval Natural Language Video Localization

July 27, 2022

Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video Localization
Daizong Liu, Wei Hu
Localization Focus Video Question Human Like Agent Natural Language Video Localization Block SkiM

July 21, 2022

LocVTP: Video-Text Pre-training for Temporal Localization
Meng Cao, Tianyu Yang, Junwu Weng, Can Zhang, Jue Wang, Yuexian Zou
Fine Grained Contrastive Loss Video Text Temporal Localization Video Text Pre Training Robust Correspondence Natural Language Video Localization

April 21, 2022

Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension
Peihan Miao, Wei Su, Gaoang Wang, Xuewei Li, Xi Li
Cross Modal Attention Cross Modal Interaction Referring Expression Comprehension Expression Comprehension Multi Grained Natural Language Video Localization

January 20, 2022

Temporal Sentence Grounding in Videos: A Survey and Future Directions
Hao Zhang, Aixin Sun, Wei Jing, Joey Tianyi Zhou
Timely Survey Gameplay Video Future Direction Multimodal Understanding Temporal Moment Video Moment Retrieval Temporal Sentence Grounding Natural Language Video Localization

December 8, 2021

SNEAK: Synonymous Sentences-Aware Adversarial Attack on Natural Language Video Localization
Wenbo Gou, Wen Shi, Jian Lou, Lijie Huang, Pan Zhou, Ruixuan Li
Adversarial Attack Adversarial Robustness Adversarial Vulnerability Natural Language Video Localization

Natural Language Video Localization

Papers

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning

Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video Localization

Commonsense for Zero-Shot Natural Language Video Localization

Is it Really Negative? Evaluating Natural Language Video Localization Performance on Multiple Reliable Videos Pool

MS-DETR: Natural Language Video Localization with Sampling Moment-Moment Interaction

Temporal Perceiving Video-Language Pre-training

Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video Localization

LocVTP: Video-Text Pre-training for Temporal Localization

Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension

Temporal Sentence Grounding in Videos: A Survey and Future Directions

SNEAK: Synonymous Sentences-Aware Adversarial Attack on Natural Language Video Localization