Long Video

Long video processing presents significant challenges for computer vision, exceeding the capabilities of models designed for short clips. Current research focuses on developing efficient architectures, such as transformers and diffusion models, and algorithms that address memory limitations and maintain temporal consistency in long video understanding tasks like action recognition, video captioning, and object segmentation. These advancements are crucial for enabling applications requiring analysis of extended video content, such as video summarization, video question answering, and large-scale video surveillance. The development of new benchmarks specifically designed for evaluating long video understanding is also a key area of focus.

Papers

September 26, 2023

Memory-Efficient Continual Learning Object Segmentation for Long Video
Amir Nazemi, Mohammad Javad Shafiee, Zahra Gharaee, Paul Fieguth
Continual Learning Long Video Semi Supervised Video Object Segmentation Long Form Video Continual Semantic Segmentation Representation Drift Regularization Based Continual Learning

July 20, 2023

Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTV
Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden
LeArning Abstract Monocular Depth Estimation World Event Motion Estimation Long Video Confidence Relaxation Slow Motion

May 22, 2023

READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation
Stéphane Vujasinović, Sebastian Bullinger, Stefan Becker, Norbert Scherer-Negenborn, Michael Arens, Rainer Stiefelhagen
Robust Version Video Object Segmentation Video Frame Long Video Unsupervised Video Object Segmentation Association Capability Unconstrained Video Robust Association Memory Diversity

April 15, 2023

Video Generation Beyond a Single Clip
Hsin-Ping Huang, Yu-Chuan Su, Ming-Hsuan Yang
Video Generation Single CLIP Video Generation Model Long Video

March 22, 2023

NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation
Shengming Yin, Chenfei Wu, Huan Yang, Jianfeng Wang, Xiaodong Wang, Minheng Ni, Zhengyuan Yang, Linjie Li, Shuguang Liu, Fan Yang, Jianlong Fu, Gong Ming, Lijuan Wang, Zicheng Liu, Houqiang Li, Nan Duan
Diffusion Explainer Long Video Diffusion Model Architecture Long Video Generation

March 15, 2023

Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos
Yulin Pan, Xiangteng He, Biao Gong, Yiliang Lv, Yujun Shen, Yuxin Peng, Deli Zhao
End to End Long Video Temporal Grounding Long Range Correlation

December 6, 2022

Unifying Short and Long-Term Tracking with Graph Hierarchies
Orcun Cetintas, Guillem Brasó, Laura Leal-Taixé
Multi Object Tracking Web Tracking Long Video Unifying Theory Occluded Object Hierarchical Graph Long Term Tracking

November 18, 2022

The Runner-up Solution for YouTube-VIS Long Video Challenge 2022
Junfeng Wu, Yi Jiang, Qihao Liu, Xiang Bai, Song Bai
Contrastive Learning Place Solution Long Video Online Video Instance Segmentation

November 16, 2022

A Generalized Framework for Video Instance Segmentation
Miran Heo, Sukjun Hwang, Jeongseok Hyun, Hanjung Kim, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim
Video Instance Segmentation Long Video Generalized Framework

October 6, 2022

Compressed Vision for Efficient Video Understanding
Olivia Wiles, Joao Carreira, Iain Barr, Andrew Zisserman, Mateusz Malinowski
Computer Vision Video Understanding Long Video Neural Compression Super Network Vision Compression

August 12, 2022

Class-attention Video Transformer for Engagement Intensity Prediction
Xusheng Ai, Victor S. Sheng, Chunhua Li, Zhiming Cui
Vision Transformer Video Sequence Video Transformer Long Video Engagement Measurement Short Form Video Class Enhanced Attentive Response

July 14, 2022

XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model
Ho Kei Cheng, Alexander G. Schwing
Video Object Segmentation Long Video

April 7, 2022

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer
Songwei Ge, Thomas Hayes, Harry Yang, Xi Yin, Guan Pang, David Jacobs, Jia-Bin Huang, Devi Parikh
Video Generation Long Video Video Synthesis Time Transformer Visual Synthesis

April 3, 2022

TransRAC: Encoding Multi-scale Temporal Correlation with Transformers for Repetitive Action Counting
Huazhang Hu, Sixun Dong, Yiqun Zhao, Dongze Lian, Zhengxin Li, Shenghua Gao
Transformer Megatron Decepticons Multi Scale Long Video Action Repetition Action Duration Action Counting