Video Model

Video models aim to learn robust representations of video data for various tasks, from action recognition and video generation to 3D reconstruction and compression. Current research emphasizes self-supervised learning approaches, such as masked video modeling and contrastive learning, often employing transformer and convolutional neural network architectures, sometimes in combination. These advancements are improving the efficiency and performance of video understanding systems, impacting fields like sports analysis, robotics, and autonomous driving through more accurate and computationally efficient solutions. Furthermore, research is exploring how to leverage pre-trained models for new tasks, reducing the need for extensive training data.

Papers

October 18, 2023

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors
Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Wangbo Yu, Hanyuan Liu, Xintao Wang, Tien-Tsin Wong, Ying Shan
Text to Video Diffusion Model Video Model Domain Image Video Diffusion Image Animation

October 11, 2023

ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation
Bo Peng, Xinyuan Chen, Yaohui Wang, Chaochao Lu, Yu Qiao
Training Free Text to Video Generation Motion Representation Video Model

September 26, 2023

A Simple Text to Video Model via Transformer
Gang Chen
Transformer Based Source Video Image Pair Video Model Visual Signal Simplified Text

August 28, 2023

VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation
Xudong Wang, Ishan Misra, Ziyun Zeng, Rohit Girdhar, Trevor Darrell
Video Instance Segmentation Video Model

July 17, 2023

Deficiency-Aware Masked Transformer for Video Inpainting
Yongsheng Yu, Heng Fan, Libo Zhang
Optical Flow Video Model Video Inpainting Masked Transformer

June 20, 2023

How can objects help action recognition?
Xingyi Zhou, Anurag Arnab, Chen Sun, Cordelia Schmid
Action Recognition Spatial Token Video Model Token Sampling

June 2, 2023

Probabilistic Adaptation of Text-to-Video Models
Mengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel
Video Diffusion Model Task Specific Text to Video Video Model High Fidelity Video

March 18, 2023

Augmenting and Aligning Snippets for Few-Shot Video Domain Adaptation
Yuecong Xu, Jianfei Yang, Yunjiao Zhou, Zhenghua Chen, Min Wu, Xiaoli Li
Domain Adaptation Action Recognition Video Model Video Domain Adaptation Snippet Extraction

March 8, 2023

Scene Matters: Model-based Deep Video Compression
Lv Tang, Xinfeng Zhang, Gai Zhang, Xiaoqi Ma
Video Compression Video Frame Video Model Deep Video Compression Deep Learning Based Video Compression

February 10, 2023

Scaling Vision Transformers to 22 Billion Parameters
Mostafa Dehghani, Josip Djolonga, Basil Mustafa, Piotr Padlewski, Jonathan Heek, Justin Gilmer, Andreas Steiner, Mathilde Caron, Robert Geirhos, Ibrahim Alabdulmohsin, Rodolphe Jenatton, Lucas Beyer, Michael Tschannen, Anurag Arnab, Xiao Wang, Carlos Riquelme, Matthias Minderer, Joan Puigcerver, Utku Evci, Manoj Kumar, Sjoerd van Steenkiste, Gamaleldin F. Elsayed, Aravindh Mahendran, Fisher Yu, Avital Oliver, Fantine Huot, Jasmijn Bastings, Mark Patrick Collier, Alexey Gritsenko, Vighnesh Birodkar, Cristina Vasconcelos, Yi Tay, Thomas Mensink, Alexander Kolesnikov, Filip Pavetić, Dustin Tran, Thomas Kipf, Mario Lučić, Xiaohua Zhai, Daniel Keysers, Jeremiah Harmsen, Neil Houlsby
Language Model Vision Transformer Many Parameter Video Model Human Visual Perception

January 5, 2023

EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding
Shuhan Tan, Tushar Nagarajan, Kristen Grauman
Video Understanding Ego Motion Video Model Egocentric Video Understanding

November 15, 2022

Dynamic Temporal Filtering in Video Models
Fuchen Long, Zhaofan Qiu, Yingwei Pan, Ting Yao, Chong-Wah Ngo, Tao Mei
Long Term Video Model Temporal Receptive Field Temporal Filter

August 10, 2022

Leveraging Endo- and Exo-Temporal Regularization for Black-box Video Domain Adaptation
Yuecong Xu, Jianfei Yang, Haozhi Cao, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen
Video Model Video Domain Video Domain Adaptation Temporal Regularization

July 24, 2022

MAR: Masked Autoencoders for Efficient Action Recognition
Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Xiang Wang, Yuehuan Wang, Yiliang Lv, Changxin Gao, Nong Sang
Action Recognition Masked Autoencoders Video Recognition Video Model Vanilla Transformer Temporal Redundancy Action Masking

June 30, 2022

Exploring Temporally Dynamic Data Augmentation for Video Recognition
Taeoh Kim, Jinhyung Kim, Minho Shim, Sangdoo Yun, Myunggu Kang, Dongyoon Wee, Sangyoun Lee
Data Augmentation Video Recognition Video Model Video Data Augmentation Fine Grained Video Representation

June 14, 2022

Stand-Alone Inter-Frame Attention in Video Models
Fuchen Long, Zhaofan Qiu, Yingwei Pan, Ting Yao, Jiebo Luo, Tao Mei
Frame Attention Temporal Convolution Video Model Local Self Attention Video Understanding Model

May 23, 2022

Flexible Diffusion Modeling of Long Videos
William Harvey, Saeid Naderiparizi, Vaden Masrani, Christian Weilbach, Frank Wood
Large Scale Video Video Model Video Completion

January 20, 2022

Learning Pixel Trajectories with Multiscale Contrastive Random Walks
Zhangxing Bian, Allan Jabri, Alexei A. Efros, Andrew Owens
Optical Flow Video Model Pixel Trajectory Space Time Contrastive Random Walk

December 2, 2021

BEVT: BERT Pretraining of Video Transformers
Rui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Yu-Gang Jiang, Luowei Zhou, Lu Yuan
Video Representation Video Transformer Pre Trained BERT Video Model Image Transformer