Temporal Localization

Temporal localization focuses on identifying the precise time intervals of events or actions within video data, often in response to natural language queries. Current research emphasizes improving accuracy and efficiency through various approaches, including transformer-based architectures, multimodal large language models (MLLMs), and techniques that leverage both visual and textual information for more robust localization. This field is crucial for advancing video understanding, enabling applications such as automated video summarization, content moderation, and assistive technologies for visually impaired individuals.

Papers

February 3, 2023

Egocentric Video Task Translation @ Ego4D Challenge 2022
Zihui Xue, Yale Song, Kristen Grauman, Lorenzo Torresani
Egocentric Video Temporal Localization EGO4D Challenge

November 24, 2022

Multi-Task Learning of Object State Changes from Uncurated Videos
Tomáš Souček, Jean-Baptiste Alayrac, Antoine Miech, Ivan Laptev, Josef Sivic
Zero Shot Self Supervised Multi Task Learning Temporal Localization Unlabeled Video Object State

November 18, 2022

Masked Autoencoders for Egocentric Video Understanding @ Ego4D Challenge 2022
Jiachen Lei, Shuang Ma, Zhongjie Ba, Sai Vemprala, Ashish Kapoor, Kui Ren
Supervised Autoencoder Masked Autoencoders Temporal Localization Object State Egocentric Video Understanding EGO4D Challenge

November 16, 2022

Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands and Objects Challenge 2022
Yin-Dong Zheng, Guo Chen, Jiahao Wang, Tong Lu, Limin Wang
Human Object Interaction Temporal Localization 3D Convolution Object State Ego4D AudioVisual State Change

October 18, 2022

Optimizing Temporal Resolution Of Convolutional Recurrent Neural Networks For Sound Event Detection
Wim Boes, Hugo Van hamme
Localization Accuracy Sound Event Detection Temporal Resolution Temporal Localization Convolutional Recurrent Neural Network

July 22, 2022

Video Swin Transformers for Egocentric Video Understanding @ Ego4D Challenges 2022
Maria Escobar, Laura Daza, Cristina González, Jordi Pont-Tuset, Pablo Arbeláez
Swin Transformer New Task Value Laden Choice Temporal Localization Object State Ego4D AudioVisual Egocentric Video Understanding

July 21, 2022

LocVTP: Video-Text Pre-training for Temporal Localization
Meng Cao, Tianyu Yang, Junwu Weng, Can Zhang, Jue Wang, Yuexian Zou
Fine Grained Contrastive Loss Video Text Temporal Localization Video Text Pre Training Robust Correspondence Natural Language Video Localization

July 6, 2022

Team PKU-WICT-MIPL PIC Makeup Temporal Video Grounding Challenge 2022 Technical Report
Minghang Zheng, Dejie Yang, Zhongjie Ye, Ting Lei, Yuxin Peng, Yang Liu
Fine Grained Technical Report Temporal Localization Temporal Video Grounding Phrase Mining

June 16, 2022

Scalable Temporal Localization of Sensitive Activities in Movies and TV Episodes
Xiang Hao, Jingxiang Chen, Shixing Chen, Ahmed Saad, Raffay Hamid
Sensitive Data Video Classification Movie Review Temporal Localization TV Show Video Level Sparse Label

June 15, 2022

Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022
Elad Ben-Avraham, Roei Herzig, Karttikeya Mangalam, Amir Bar, Anna Rohrbach, Leonid Karlinsky, Trevor Darrell, Amir Globerson
Scene Representation Learning Framework Temporal Localization Video Token

June 7, 2022

TadML: A fast temporal action detection with Mechanics-MLP
Bowen Deng, Dongchang Liu
Optical Flow Video Understanding Temporal Action Detection Temporal Localization Single Scene Specific MLP

May 29, 2022

To catch a chorus, verse, intro, or anything else: Analyzing a song with structural functions
Ju-Chiang Wang, Yun-Ning Hung, Jordan B. L. Smith
Gentle Introduction Temporal Localization Vocal Performance Textual Label Basic Melody Music Structure Analysis Structure Function Singing Voice Deepfake Detection

May 20, 2022

Temporally Precise Action Spotting in Soccer Videos Using Dense Detection Anchors
João V. B. Soares, Avijit Shah, Topojoy Biswas
Fine Grained Temporal Shift Temporal Localization Soccer Video Dense Object Detection Detection Confidence

April 26, 2022

Contrastive Language-Action Pre-training for Temporal Localization
Mengmeng Xu, Erhan Gundogdu, Maksim Lapin, Bernard Ghanem, Michael Donoser, Loris Bazzani
Temporal Action Localization Temporal Localization Long Form Video Understanding Temporal Annotation Zero Shot Temporal Action Video Language Grounding

April 4, 2022

TALLFormer: Temporal Action Localization with a Long-memory Transformer
Feng Cheng, Gedas Bertasius
Temporal Action Localization Temporal Localization Recurrent Transformer

March 30, 2022

TubeDETR: Spatio-Temporal Video Grounding with Transformers
Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid
Transformer Megatron Decepticons Temporal Localization Spatio Temporal Video Grounding

March 25, 2022

Unsupervised Pre-training for Temporal Action Localization Tasks
Can Zhang, Tianyu Yang, Junwu Weng, Meng Cao, Jue Wang, Yuexian Zou
Temporal Action Localization Unsupervised Pre Training Action Localization Temporal Localization Video Representation Learning

March 10, 2022

OpenTAL: Towards Open Set Temporal Action Localization
Wentao Bao, Qi Yu, Yu Kong
Temporal Action Localization Action Prediction Evidential Deep Learning Action Classification Temporal Localization

February 16, 2022

When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs
Oana Ignat, Santiago Castro, Yuhang Zhou, Jiajun Bao, Dandan Shan, Rada Mihalcea
Temporal Action Localization Narrative Text Temporal Localization Video Clip

January 25, 2022

Explore-And-Match: Bridging Proposal-Based and Proposal-Free With Transformer for Sentence Grounding in Videos
Sangmin Woo, Jinyoung Park, Inyong Koo, Sumin Lee, Minki Jeong, Changick Kim
Transformer Based Gameplay Video Bridging Text Temporal Localization Video Grounding Video Language Transformer