Large Scale Video

Large-scale video research focuses on efficiently processing and understanding vast amounts of video data, addressing challenges in annotation, retrieval, and generation. Current efforts concentrate on developing powerful video-language models, leveraging techniques like hierarchical embeddings and transformer architectures, to improve video understanding tasks such as object tracking, activity recognition, and question answering. These advancements are crucial for applications ranging from automated video analysis in surveillance and healthcare to enhancing content creation and retrieval tools, ultimately impacting various fields through improved efficiency and accuracy.

Papers

March 25, 2024

Elysium: Exploring Object-level Perception in Videos via MLLM
Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang
Gameplay Video Large Scale Video MLLM Training MLLM Attention Object Perception

March 18, 2024

AICL: Action In-Context Learning for Video Diffusion Model
Jianzhi Liu, Junchen Zhu, Lianli Gao, Heng Tao Shen, Jingkuan Song
Human Motion Video Diffusion Model Large Scale Video Action Generation Diverse Video

March 7, 2024

Depth-aware Test-Time Training for Zero-shot Video Object Segmentation
Weihuang Liu, Xi Shen, Haolun Li, Xiuli Bi, Bo Liu, Chi-Man Pun, Xiaodong Cun
Large Scale Video Test Time Training Depth Distribution Consistent Video Depth Zero Shot Video Object Segmentation

March 2, 2024

Fast Low-parameter Video Activity Localization in Collaborative Learning Environments
Venkatesh Jatla, Sravani Teeparthi, Ugesh Egala, Sylvia Celedon Pattichis, Marios S. Patticis
Activity Recognition Collaborative Learning Large Scale Video Video Detection Video Activity

January 24, 2024

PanAf20K: A Large Video Dataset for Wild Ape Detection and Behaviour Recognition
Otto Brookes, Majid Mirmehdi, Colleen Stephens, Samuel Angedakin, Katherine Corogenes, Dervla Dowd, Paula Dieguez, Thurston C. Hicks, Sorrel Jones, Kevin Lee, Vera Leinert, Juan Lapuente, Maureen S. McCarthy, Amelia Meier, Mizuki Murai, Emmanuelle Normand, Virginie Vergnes, Erin G. Wessling, Roman M. Wittig, Kevin Langergraber, Nuria Maldonado, Xinyu Yang, Klaus Zuberbuhler, Christophe Boesch, Mimi Arandjelovic, Hjalmar Kuhl, Tilo Burghardt
Video Dataset Large Scale Video Behavior Recognition Great Ape

January 13, 2024

Datasets, Clues and State-of-the-Arts for Multimedia Forensics: An Extensive Review
Ankit Yadav, Dinesh Kumar Vishwakarma
Data Set State of the Art Comprehensive Review Large Scale Video Superficial Clue Manipulation Detection Deepfake Detection Method Tamper Detection Multimedia Forensics

November 30, 2023

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition
Tongjia Chen, Hongshan Yu, Zhengeng Yang, Zechuan Li, Wei Sun, Chen Chen
Vision Language Model Video Recognition Large Scale Video Frame Wise Representation Spatio Temporal Feature Extraction

November 10, 2023

Learning Human Action Recognition Representations Without Real Humans
Howard Zhong, Samarth Mishra, Donghyun Kim, SouYoung Jin, Rameswar Panda, Hilde Kuehne, Leonid Karlinsky, Venkatesh Saligrama, Aude Oliva, Rogerio Feris
Action Recognition Real Human Human Action Recognition Action Representation Large Scale Video Action Recognition Benchmark

October 28, 2023

Deep Learning-based Compressed Domain Multimedia for Man and Machine: A Taxonomy and Application to Point Cloud Classification
Abdelrahman Seleem, André F. R. Guarda, Nuno M. M. Rodrigues, Fernando Pereira
New Machine Comprehensive Taxonomy Point Cloud Classification Large Scale Video Compressed Representation Compressed Domain Cloud Classification

October 23, 2023

FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling
Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu
Video Diffusion Model Large Scale Video Video Generation Model Short Form Video Noise Scheduling Text Driven Video Generation

October 20, 2023

NurViD: A Large Expert-Level Video Database for Nursing Procedure Activity Understanding
Ming Hu, Lin Wang, Siyuan Yan, Don Ma, Qingli Ren, Peng Xia, Wei Feng, Peibo Duan, Lie Ju, Zongyuan Ge
Large Scale Video Medical Benchmark Nursing Activity

October 16, 2023

3DYoga90: A Hierarchical Video Dataset for Yoga Pose Understanding
Seonok Kim
Human Pose Single RGB Image Large Scale Video State of the Art Datasets Yoga Pose

October 8, 2023

GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval
Yuting Wang, Jinpeng Wang, Bin Chen, Ziyun Zeng, Shu-Tao Xia
Video Retrieval CLIP Model Large Scale Video CLIP Level

September 3, 2023

Semi-supervised 3D Video Information Retrieval with Deep Neural Network and Bi-directional Dynamic-time Warping Algorithm
Yintai Ma, Diego Klabjan
Deep Neural Network Recurrent Neural Network Semi Supervised Dynamic Time Warping Video Retrieval Large Scale Video

August 22, 2023

ViCo: Engaging Video Comment Generation with Human Preference Rewards
Yuchong Sun, Bei Liu, Xu Chen, Ruihua Song, Jianlong Fu
Large Scale Video Preference Reward Comment Generation

August 1, 2023

VideoPro: A Visual Analytics Approach for Interactive Video Programming
Jianben He, Xingbo Wang, Kam Kwai Wong, Xijie Huang, Changjian Chen, Zixin Chen, Fengjie Wang, Min Zhu, Huamin Qu
Large Scale Video Video Data Data Labeling Visual Analytics Labeling Function Verbal Video

March 7, 2023

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]
Maureen Daum, Enhao Zhang, Dong He, Stephen Mussmann, Brandon Haynes, Ranjay Krishna, Magdalena Balazinska
Technical Report Video Representation Video Dataset Training Model Large Scale Video Model Development Vocal Performance Domain Specific Model

January 20, 2023

An Asynchronous Intensity Representation for Framed and Event Video Sources
Andrew C. Freeman, Montek Singh, Ketan Mayer-Patel
Event Camera Indoor Wall Frame Installation Large Scale Video Image Intensity

December 22, 2022

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, Mike Zheng Shou
Text to Image Text to Video Text to Video Generation Image Diffusion Model Large Scale Video Hyper Tune T2I Diffusion Model Text Video Pair

November 21, 2022

Contrastive Masked Autoencoders for Self-Supervised Video Hashing
Yuting Wang, Jinpeng Wang, Bin Chen, Ziyun Zeng, Shutao Xia
Video Understanding Large Scale Video Contrastive Masked Video Search Video Hashing

Large Scale Video

Papers

Elysium: Exploring Object-level Perception in Videos via MLLM

AICL: Action In-Context Learning for Video Diffusion Model

Depth-aware Test-Time Training for Zero-shot Video Object Segmentation

Fast Low-parameter Video Activity Localization in Collaborative Learning Environments

PanAf20K: A Large Video Dataset for Wild Ape Detection and Behaviour Recognition

Datasets, Clues and State-of-the-Arts for Multimedia Forensics: An Extensive Review

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

Learning Human Action Recognition Representations Without Real Humans

Deep Learning-based Compressed Domain Multimedia for Man and Machine: A Taxonomy and Application to Point Cloud Classification

FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling

NurViD: A Large Expert-Level Video Database for Nursing Procedure Activity Understanding

3DYoga90: A Hierarchical Video Dataset for Yoga Pose Understanding

GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval

Semi-supervised 3D Video Information Retrieval with Deep Neural Network and Bi-directional Dynamic-time Warping Algorithm

ViCo: Engaging Video Comment Generation with Human Preference Rewards

VideoPro: A Visual Analytics Approach for Interactive Video Programming

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]

An Asynchronous Intensity Representation for Framed and Event Video Sources

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Contrastive Masked Autoencoders for Self-Supervised Video Hashing