Video Understanding Task

Video understanding research aims to enable computers to interpret the content and context of videos, encompassing tasks like action recognition, video captioning, and question answering. Current efforts focus on developing robust and efficient models, often leveraging large language models (LLMs) and multimodal architectures, including transformers and graph neural networks, to process both visual and auditory information and handle long-term temporal dependencies. These advancements are crucial for applications ranging from automated video indexing and summarization to more complex tasks such as autonomous driving and medical diagnosis, driving significant progress in both computer vision and artificial intelligence.

Papers

November 21, 2023

SPOT! Revisiting Video-Language Models for Event Understanding
Gengyuan Zhang, Jinhe Bi, Jindong Gu, Yanyu Chen, Volker Tresp
Video Understanding Video Understanding Task Video Language Model SpOT Robot Event Understanding Video Caption

October 16, 2023

VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools
Ji Qi, Kaixuan Ji, Jifan Yu, Duokang Wang, Bin Xu, Lei Hou, Juanzi Li
Video Understanding Video Understanding Task Audio Visual Event Video Event

October 7, 2023

Analyzing Zero-Shot Abilities of Vision-Language Models on Video Understanding Tasks
Avinash Madasu, Anahita Bhiwandiwalla, Vasudev Lal
Vision Language Model Critique Ability Image Text Video Understanding Task Text Video Pair Video Text Model

September 12, 2023

SoccerNet 2023 Challenges Results
Anthony Cioppa, Silvio Giancola, Vladimir Somers, Floriane Magera, Xin Zhou, Hassan Mkhallati, Adrien Deliège, Jan Held, Carlos Hinojosa, Amir M. Mansourian, Pierre Miralles, Olivier Barnich, Christophe De Vleeschouwer, Alexandre Alahi, Bernard Ghanem, Marc Van Droogenbroeck, Abdullah Kamal, Adrien Maglo, Albert Clapés, Amr Abdelaziz, Artur Xarles, Astrid Orcesi, Atom Scott, Bin Liu, Byoungkwon Lim, Chen Chen, Fabian Deuser, Feng Yan, Fufu Yu, Gal Shitrit, Guanshuo Wang, Gyusik Choi, Hankyul Kim, Hao Guo, Hasby Fahrudin, Hidenari Koguchi, Håkan Ardö, Ibrahim Salah, Ido Yerushalmy, Iftikar Muhammad, Ikuma Uchida, Ishay Be'ery, Jaonary Rabarisoa, Jeongae Lee, Jiajun Fu, Jianqin Yin, Jinghang Xu, Jongho Nang, Julien Denize, Junjie Li, Junpei Zhang, Juntae Kim, Kamil Synowiec, Kenji Kobayashi, Kexin Zhang, Konrad Habel, Kota Nakajima, Licheng Jiao, Lin Ma, Lizhi Wang, Luping Wang, Menglong Li, Mengying Zhou, Mohamed Nasr, Mohamed Abdelwahed, Mykola Liashuha, Nikolay Falaleev, Norbert Oswald, Qiong Jia, Quoc-Cuong Pham, Ran Song, Romain Hérault, Rui Peng, Ruilong Chen, Ruixuan Liu, Ruslan Baikulov, Ryuto Fukushima, Sergio Escalera, Seungcheon Lee, Shimin Chen, Shouhong Ding, Taiga Someya, Thomas B. Moeslund, Tianjiao Li, Wei Shen, Wei Zhang, Wei Li, Wei Dai, Weixin Luo, Wending Zhao, Wenjie Zhang, Xinquan Yang, Yanbiao Ma, Yeeun Joo, Yingsen Zeng, Yiyang Gan, Yongqiang Zhu, Yujie Zhong, Zheng Ruan, Zhiheng Li, Zhijian Huang, Ziyu Meng
Key Result Video Understanding Task SoccerNet Challenge SoccerNet Team

August 18, 2023

Audio-Visual Glance Network for Efficient Video Recognition
Muhammad Adi Nugroho, Sangmin Woo, Sumin Lee, Changick Kim
Visual Attention Video Recognition Video Understanding Task Audio Visual Representation Video Recognition Benchmark Audio Visual Saliency

May 22, 2023

VideoLLM: Modeling Video Sequence with Large Language Models
Guo Chen, Yin-Dong Zheng, Jiahao Wang, Jilan Xu, Yifei Huang, Junting Pan, Yi Wang, Yali Wang, Yu Qiao, Tong Lu, Limin Wang
Video Understanding Video Understanding Task Video Sequence Video Understanding Model

April 20, 2023

Search-Map-Search: A Frame Selection Paradigm for Action Recognition
Mingjun Zhao, Yakun Yu, Xiaoli Wang, Lei Yang, Di Niu
Action Recognition Local Search Video Understanding Task Action Recognition Model Frame Level Importance Frame Selection

April 6, 2023

Boundary-Denoising for Video Activity Localization
Mengmeng Xu, Mattia Soldan, Jialin Gao, Shuming Liu, Juan-Manuel Pérez-Rúa, Bernard Ghanem
Temporal Action Detection Video Understanding Task Video Activity

March 30, 2023

Streaming Video Model
Yucheng Zhao, Chong Luo, Chuanxin Tang, Dongdong Chen, Noel Codella, Zheng-Jun Zha
Action Recognition Video Understanding Video Understanding Task Video Task Streaming Model Streaming Transformer

March 28, 2023

March 22, 2023

Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos
Sixun Dong, Huazhang Hu, Dongze Lian, Weixin Luo, Yicheng Qian, Shenghua Gao
Contrastive Loss Weakly Supervised Video Representation Video Understanding Task Video Sequence

February 16, 2023

MINOTAUR: Multi-task Video Grounding From Multimodal Queries
Raghav Goyal, Effrosyni Mavroudi, Xitong Yang, Sainbayar Sukhbaatar, Leonid Sigal, Matt Feiszli, Lorenzo Torresani, Du Tran
Video Understanding Modality Specific Video Understanding Task Video Question Spatio Temporal Video Grounding Multimodal Query

December 13, 2022

Egocentric Video Task Translation
Zihui Xue, Yale Song, Kristen Grauman, Lorenzo Torresani
Multi Task Learning Egocentric Video Video Understanding Task Video Task

December 8, 2022

PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data
Roei Herzig, Ofir Abramovich, Elad Ben-Avraham, Assaf Arbelle, Leonid Karlinsky, Ariel Shamir, Trevor Darrell, Amir Globerson
Prompt Learning Video Understanding Task Video Transformer Synthetic Image Data

October 12, 2022

Self-supervised video pretraining yields robust and more human-aligned visual representations
Nikhil Parthasarathy, S. M. Ali Eslami, João Carreira, Olivier J. Hénaff
Pre Training Visual Representation Video Understanding Task Video Pretraining Human Compatible Representation

August 24, 2022

Visual Subtitle Feature Enhanced Video Outline Generation
Qi Lv, Ziqiang Cao, Wenrui Xie, Derui Wang, Jingwen Wang, Zhiwei Hu, Tangkun Zhang, Ba Yuan, Yuanhang Li, Min Cao, Wenjie Li, Sujian Li, Guohong Fu
Video Understanding Video Summarization Video Understanding Task Video Summary

August 22, 2022

Identifying Auxiliary or Adversarial Tasks Using Necessary Condition Analysis for Adversarial Multi-task Video Understanding
Stephen Su, Samuel Kwong, Qingyu Zhao, De-An Huang, Juan Carlos Niebles, Ehsan Adeli
Multi Task Learning Action Recognition Multi Task Video Understanding Video Understanding Task Sufficient Condition

August 2, 2022

Two-Stream Transformer Architecture for Long Video Understanding
Edward Fish, Jon Weinbren, Andrew Gilbert
Video Understanding Task Long Form Video Understanding Long Video Understanding Stream Transformer

July 20, 2022

Spotting Temporally Precise, Fine-Grained Events in Video
James Hong, Haotian Zhang, Michaël Gharbi, Matthew Fisher, Kayvon Fatahalian
Fine Grained Source Video Video Understanding Task Action Detection Video Action Detection