Action Localization

Action localization in videos aims to identify both the class and temporal extent of actions within untrimmed video sequences. Current research emphasizes robust methods for handling multiple actions, noisy data, and limited annotations, often employing transformer-based architectures, multimodal approaches (combining visual and textual information), and self-supervised or weakly-supervised learning techniques to improve accuracy and efficiency. This field is crucial for applications ranging from video understanding and content analysis to robotics and assistive technologies, driving advancements in both model design and dataset creation.

Papers

August 19, 2023

Weakly-Supervised Action Localization by Hierarchically-structured Latent Attention Modeling
Guiqin Wang, Peng Zhao, Cong Zhao, Shusen Yang, Jie Cheng, Luziwei Leng, Jianxing Liao, Qinghai Guo
Latent Representation Video Classification Hierarchical Attention Action Localization Video Level

May 25, 2023

Action Sensitivity Learning for Temporal Action Localization
Jiayi Shao, Xiaohan Wang, Ruijie Quan, Junjun Zheng, Jiang Yang, Yi Yang
Temporal Action Localization Action Sequence Action Localization

May 23, 2023

Hierarchical Prompting Assists Large Language Model on Web Navigation
Abishek Sridhar, Robert Lo, Frank F. Xu, Hao Zhu, Shuyan Zhou
Large Language Model Action Localization Interactive Decision Making Hierarchical Prompting

March 30, 2023

Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection
Pilhyeon Lee, Taeoh Kim, Minho Shim, Dongyoon Wee, Hyeran Byun
Temporal Action Detection Motion Representation Action Localization Cross Modal Distillation

March 22, 2023

Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature
Wulian Yun, Mengshi Qi, Chuanming Wang, Huadong Ma
Temporal Action Localization Action Localization Video Level Supervised Temporal Action Localization Salient Feature

March 21, 2023

Multi-modal Prompting for Low-Shot Temporal Action Localization
Chen Ju, Zeqian Li, Peisen Zhao, Ya Zhang, Xiaopeng Zhang, Qi Tian, Yanfeng Wang, Weidi Xie
Prompt Learning Temporal Action Localization Action Localization Temporal Action Proposal Open Vocabulary Action Recognition

December 19, 2022

Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Localization
Chen Ju, Kunhao Zheng, Jinxiang Liu, Peisen Zhao, Ya Zhang, Jianlong Chang, Yanfeng Wang, Qi Tian
Pseudo Label Temporal Action Localization Action Localization Supervised Temporal Action Localization

July 14, 2022

Forcing the Whole Video as Background: An Adversarial Learning Strategy for Weakly Temporal Action Localization
Ziqiang Li, Yongxin Ge, Jiaruo Yu, Zhongming Chen
Reinforcement Learning Temporal Action Localization Background Knowledge Action Localization Adversarial Framework Video Level Whole Video

July 8, 2022

Beyond Transfer Learning: Co-finetuning for Action Localisation
Anurag Arnab, Xuehan Xiong, Alexey Gritsenko, Rob Romijnders, Josip Djolonga, Mostafa Dehghani, Chen Sun, Mario Lučić, Cordelia Schmid
Fine Grained Fine Tuning Transfer Learning Deep Network Action Localization Spatio Temporal Action

July 5, 2022

MVP: Robust Multi-View Practice for Driving Action Localization
Jingjie Shang, Kunchang Li, Kaibin Tian, Haisheng Su, Yangguang Li
Multi View Practice Mode Video Dataset Action Localization AI City Challenge Action Annotation

June 23, 2022

Learning to Refactor Action and Co-occurrence Features for Temporal Action Localization
Kun Xia, Le Wang, Sanping Zhou, Nanning Zheng, Wei Tang
LeArning Abstract Video Representation Temporal Action Localization Co Occurrence Action Detection Action Localization Code Refactoring

May 12, 2022

Entity-aware and Motion-aware Transformers for Language-driven Action Localization in Videos
Shuo Yang, Xinxiao Wu
Gameplay Video Action Localization Entity Knowledge Aware Transformer Slow Motion Motion Aware Transformer

April 6, 2022

MM-SEAL: A Large-scale Video Dataset of Multi-person Multi-grained Spatio-temporally Action Localization
Shimin Chen, Wei Li, Chen Chen, Jianyang Gu, Jiaming Chu, Xunqiang Tao, Yandong Guo
Video Understanding Human Action Recognition Large Scale Video Action Localization Seal Generation Spatio Temporal Action Activity Annotation

March 25, 2022

Unsupervised Pre-training for Temporal Action Localization Tasks
Can Zhang, Tianyu Yang, Junwu Weng, Meng Cao, Jue Wang, Yuexian Zou
Temporal Action Localization Unsupervised Pre Training Action Localization Temporal Localization Video Representation Learning

March 20, 2022

Point3D: tracking actions as moving points with 3D CNNs
Shentong Mo, Jingfei Xia, Xiaoqing Tan, Bhiksha Raj
Exceptional Point Temporal Action Detection Past Action 3d CNN Action Localization Action Classification Action Category

February 10, 2022

OWL (Observe, Watch, Listen): Audiovisual Temporal Context for Localizing Actions in Egocentric Videos
Merey Ramazanova, Victor Escorcia, Fabian Caba Heilbron, Chen Zhao, Bernard Ghanem
Egocentric Video Temporal Action Localization Action Localization Video Context Third Person

January 2, 2022

TVNet: Temporal Voting Network for Action Localization
Hanyuan Wang, Dima Damen, Majid Mirmehdi, Toby Perrett
Temporal Context Action Localization

December 8, 2021

Prompting Visual-Language Models for Efficient Video Understanding
Chen Ju, Tengda Han, Kunhao Zheng, Ya Zhang, Weidi Xie
Action Recognition Video Understanding Visual Language Model Action Localization Image Text Representation Prompt Vector

December 1, 2021

Graph Convolutional Module for Temporal Action Localization in Videos
Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan
Action Recognition Gameplay Video Temporal Action Localization Action Localization Action Localization Method

November 24, 2021

Background-Click Supervision for Temporal Action Localization
Le Yang, Junwei Han, Tao Zhao, Tianwei Lin, Dingwen Zhang, Jianxin Chen
Temporal Action Localization Action Localization Click Supervision