Video Prediction

Video prediction aims to generate future frames of a video sequence, based on preceding frames, addressing challenges in modeling complex dynamics and uncertainty. Current research emphasizes incorporating procedural knowledge and physical constraints into data-driven models, often employing architectures like transformers, diffusion models, and state-space models with various techniques for handling long-term dependencies and multi-modality (e.g., integrating text or tactile data). This field is significant for its potential applications in robotics, autonomous driving, and other areas requiring predictive modeling of dynamic visual scenes, driving advancements in both computer vision and artificial intelligence.

Papers

October 6, 2022

Text-driven Video Prediction
Xue Song, Jingjing Chen, Bin Zhu, Yu-Gang Jiang
Video Generation Motion Information Video Prediction Video Generation Model

September 19, 2022

T3VIP: Transformation-based 3D Video Prediction
Iman Nematollahi, Erick Rosete-Beas, Seyed Mahdi B. Azad, Raghu Rajan, Frank Hutter, Wolfram Burgard
Video Prediction Depth Video

September 15, 2022

HARP: Autoregressive Latent Video Prediction with High-Fidelity Image Generator
Younggyo Seo, Kimin Lee, Fangchen Liu, Stephen James, Pieter Abbeel
Image Generation Video Prediction Quality Prediction

August 24, 2022

Robot Motion Planning as Video Prediction: A Spatio-Temporal Neural Network-based Motion Planner
Xiao Zang, Miao Yin, Lingyi Huang, Jingjin Yu, Saman Zonouz, Bo Yuan
Motion Planning Spatio Temporal Multi Robot Video Prediction Robot Motion Planning Neural Motion

August 19, 2022

Wildfire Forecasting with Satellite Images and Deep Generative Model
Thai-Nam Hoang, Sang Truong, Chris Schmidt
Satellite Image Deep Generative Model Video Prediction Wildfire Forecasting Wildfire Prediction Autoregressive Image Stochastic Video Prediction

June 27, 2022

Optimizing Video Prediction via Video Frame Interpolation
Yue Wu, Qiang Wen, Qifeng Chen
Video Prediction Video Frame Interpolation

June 23, 2022

MaskViT: Masked Visual Pre-Training for Video Prediction
Agrim Gupta, Stephen Tian, Yunzhi Zhang, Jiajun Wu, Roberto Martín-Martín, Li Fei-Fei
Video Prediction Window Attention Visual Model Visual Pre Training

June 15, 2022

Diffusion Models for Video Prediction and Infilling
Tobias Höppe, Arash Mehrjou, Stefan Bauer, Didrik Nielsen, Andrea Dittadi
Diffusion Model Video Generation Video Diffusion Model Video Prediction Image Diffusion Model

June 9, 2022

June 8, 2022

Patch-based Object-centric Transformers for Efficient Video Generation
Wilson Yan, Ryo Okumura, Stephen James, Pieter Abbeel
Video Generation Object Centric Representation Video Prediction Video Generation Model Object Centric Transformer

May 19, 2022

MCVD: Masked Conditional Video Diffusion for Prediction, Generation, and Interpolation
Vikram Voleti, Alexia Jolicoeur-Martineau, Christopher Pal
Human Prediction Faithful Generation Interpolation Regime Video Prediction Conditional Denoising Diffusion

May 4, 2022

April 20, 2022

STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond
Zheng Chang, Xinfeng Zhang, Shanshe Wang, Siwei Ma, Wen Gao
Video Prediction Temporal Receptive Field Motion Attention

April 12, 2022

Continual Predictive Learning from Videos
Geng Chen, Wendong Zhang, Han Lu, Siyu Gao, Yunbo Wang, Mingsheng Long, Xiaokang Yang
Continual LEArning Gameplay Video Online Continual Learning Experience Replay Video Prediction Predictive Learning

March 30, 2022

STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution Video Prediction
Zheng Chang, Xinfeng Zhang, Shanshe Wang, Siwei Ma, Wen Gao
Video Prediction

March 29, 2022

VPTR: Efficient Transformers for Video Prediction
Xi Ye, Guillaume-Alexandre Bilodeau
Video Prediction Efficient Transformer Video Frame Space Time Attention

March 17, 2022

MSPred: Video Prediction at Multiple Spatio-Temporal Scales with Hierarchical Recurrent Networks
Angel Villar-Corrales, Ani Karapetyan, Andreas Boltres, Sven Behnke
Video Prediction Video Frame Hierarchical Recurrent Future Frame Prediction

February 1, 2022

Filtered-CoPhy: Unsupervised Learning of Counterfactual Physics in Pixel Space
Steeven Janny, Fabien Baradel, Natalia Neverova, Madiha Nadri, Greg Mori, Christian Wolf
Unsupervised Learning Physic Informed Machine Learning Sparse Representation Video Prediction Counterfactual Reasoning Improved Benchmark Counterfactual Theory