Video Vision Transformer

Video Vision Transformers (ViViTs) are a class of deep learning models applying the transformer architecture to video analysis, aiming to improve upon the capabilities of convolutional neural networks (CNNs) for tasks like action recognition, facial expression analysis, and violence detection. Current research focuses on optimizing ViViT training efficiency, addressing issues like high computational cost and memory consumption, and exploring variations like multi-branch classifiers to enhance performance on imbalanced datasets. The effectiveness of ViViTs, particularly in low-data regimes, is demonstrating their potential to revolutionize video understanding across diverse applications, from healthcare (e.g., MCI detection) to public safety.

Papers

June 7, 2023

Optimizing ViViT Training: Time and Memory Reduction for Action Recognition
Shreyank N Gowda, Anurag Arnab, Jonathan Huang
Action Recognition Transformer Based Model Time Matter Temporal Transformer Spatial Transformer Memory Reduction Video Vision Transformer

April 11, 2023

MC-ViViT: Multi-branch Classifier-ViViT to detect Mild Cognitive Impairment in older adults using facial videos
Jian Sun, Hiroko H. Dodge, Mohammad H. Mahoor
Convolutional Neural Network Focal Loss Facial Video Mild Cognitive Impairment Older Adult Video Vision Transformer

March 16, 2023

Vision Transformer for Action Units Detection
Tu Vu, Van Thong Huynh, Soo Hyung Kim
Vision Transformer Action Unit Detection Vision Transformer Model Facial Action Unit Recognition Video Vision Transformer

October 27, 2022

Fully-attentive and interpretable: vision and video vision transformers for pain detection
Giacomo Fiorentini, Itir Onal Ertugrul, Albert Ali Salah
Vision Transformer Vision Paper Pain Detection Video Vision Transformer Pain Classification

September 15, 2022

On the Surprising Effectiveness of Transformers in Low-Labeled Video Recognition
Farrukh Rahman, Ömer Mubarek, Zsolt Kira
Vision Transformer Transformer Megatron Decepticons Video Classification Video Transformer Surprising Effectiveness Weakly Labeled Unconstrained Video Video Vision Transformer

September 8, 2022

Video Vision Transformers for Violence Detection
Sanskar Singh, Shivaibhav Dewangan, Ghanta Sai Krishna, Vandit Tyagi, Sainath Reddy, Prathistith Raj Medi
Vision Transformer Video Sequence Violence Detection Communal Violence CCTV Video Video Vision Transformer