Video Recognition

Video recognition aims to automatically understand the content of videos, a complex task requiring the analysis of both spatial and temporal information. Current research focuses on improving efficiency and robustness, exploring architectures like transformers and convolutional neural networks, often incorporating techniques like masked autoencoders, attention mechanisms, and efficient positional encoding to handle the high dimensionality of video data. These advancements are crucial for applications ranging from autonomous driving and medical image analysis to content understanding and security, driving progress in both theoretical understanding and practical deployment of video analysis systems.

Papers

May 26, 2022

AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition
Shoufa Chen, Chongjian Ge, Zhan Tong, Jiangliu Wang, Yibing Song, Jue Wang, Ping Luo
Vision Transformer Visual Recognition Pre Trained Vision Transformer Video Recognition Scalable Vision

May 16, 2022

Noise-Tolerant Learning for Audio-Visual Action Recognition
Haochen Han, Qinghua Zheng, Minnan Luo, Kaiyao Miao, Feng Tian, Yan Chen
Video Recognition Multi Modal Learning Action Recognition Model Noise Robust Learning

May 3, 2022

In Defense of Image Pre-Training for Spatiotemporal Recognition
Xianhang Li, Huiyu Wang, Chen Wei, Jieru Mei, Alan Yuille, Yuyin Zhou, Cihang Xie
Pre Training Video Recognition 3D Convolution 3D Convolutional Neural Network Spatiotemporal Convolutional Neural Network

March 25, 2022

Class-Incremental Learning for Action Recognition in Videos
Jaeyoo Park, Minsoo Kang, Bohyung Han
Continual LEArning Action Recognition Catastrophic Forgetting Gameplay Video Class Incremental Learning Video Recognition Action Recognition Benchmark

March 18, 2022

Group Contextualization for Video Recognition
Yanbin Hao, Hao Zhang, Chong-Wah Ngo, Xiangnan He
2 Dimensional Video Recognition

March 16, 2022

Gate-Shift-Fuse for Video Action Recognition
Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz
2 Dimensional Video Recognition 3d CNN Video Action Recognition Action Recognition Benchmark Kernel Matrix Factorization

January 20, 2022

MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition
Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer
Long Term Video Recognition Action Anticipation Video Processing Multiscale Vision Transformer

January 17, 2022

Action Keypoint Network for Efficient Video Recognition
Xu Chen, Yahong Han, Xiaohan Wang, Yifan Sun, Yi Yang
Video Recognition Video Recognition Benchmark Keypoint Tracking

January 12, 2022

January 11, 2022

Condensing a Sequence to One Informative Frame for Video Recognition
Zhaofan Qiu, Ting Yao, Yan Shu, Chong-Wah Ngo, Tao Mei
Fine Grained Sequence of Sequence Video Recognition Video Classification Video Analysis Frame Synthesis

January 9, 2022

Glance and Focus Networks for Dynamic Visual Recognition
Gao Huang, Yulin Wang, Kangchen Lv, Haojun Jiang, Wenhui Huang, Pengfei Qi, Shiji Song
Image Classification Glance Annotation Coarse to Fine Recognition Task Video Recognition

December 28, 2021

AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video Recognition
Yulin Wang, Yang Yue, Yuanze Lin, Haojun Jiang, Zihang Lai, Victor Kulikov, Nikita Orlov, Humphrey Shi, Gao Huang
Video Recognition End to End Training Spatial Network

December 9, 2021

DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition
Yuxuan Liang, Pan Zhou, Roger Zimmermann, Shuicheng Yan
Temporal Dependency Video Recognition Local Transformer Space Time Attention

December 2, 2021

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection
Yanghao Li, Chao-Yuan Wu, Haoqi Fan, Karttikeya Mangalam, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer
Classification Code Data Detection Video Recognition Video Classification COCO Object Detection Multiscale Vision Transformer