Video Question

Video question answering (VideoQA) aims to enable computers to understand and respond to questions about video content, bridging the gap between visual and linguistic understanding. Current research focuses on improving model efficiency and accuracy by employing techniques like adaptive frame sampling, multi-agent systems, and leveraging large language models (LLMs) for reasoning and answer generation, often incorporating attention mechanisms and contrastive learning. This field is significant for advancing artificial intelligence's ability to interact with complex multimedia data, with potential applications ranging from assistive technologies for visually impaired individuals to more efficient video search and analysis.

Papers

May 14, 2024

CinePile: A Long Video Question Answering Dataset and Benchmark
Ruchit Rawal, Khalid Saifullah, Miquel Farré, Ronen Basri, David Jacobs, Gowthami Somepalli, Tom Goldstein
Data Set New Benchmark Video Understanding Video Question Long Form Video Understanding Video LLM Long Text Understanding

April 21, 2024

April 1, 2024

CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes
Paritosh Parmar, Eric Peh, Ruirui Chen, Ting En Lam, Yuhan Chen, Elston Tan, Basura Fernando
Data Set Dynamic Scene Causal Relation Causal Event Video Question Causal Query

March 21, 2024

March 13, 2024

DAM: Dynamic Adapter Merging for Continual Video QA Learning
Feng Cheng, Ziyang Wang, Yi-Lin Sung, Yan-Bo Lin, Mohit Bansal, Gedas Bertasius
Video Question Answering Video Question Adapter Fusion

February 16, 2024

Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering
David Romero, Thamar Solorio
Multiple Choice VideoQA Video Question VideoQA Model Zero Shot Visual Question Answering VideoQA Benchmark Question Driven Image Caption

February 12, 2024

BDIQA: A New Dataset for Video Question Answering to Explore Cognitive Reasoning through Theory of Mind
Yuanyuan Mao, Xin Lin, Qin Ni, Liang He
Reasoning Task Human Mind Reasoning Ability Cognitive Intelligence Video Question Theory of Mind Cognitive Reasoning

January 30, 2024

YTCommentQA: Video Question Answerability in Instructional Videos
Saelyne Yang, Sunghyun Park, Yunseok Jang, Moontae Lee
Video Question Answering Multiple Choice VideoQA Instructional Video Video Question Video Content Video Reasoning

January 3, 2024

Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning for Video Question Answering
Haopeng Li, Qiuhong Ke, Mingming Gong, Tom Drummond
Curriculum Learning Video Question Answering Model Generalization Multiple Choice VideoQA Video Question Uncertain Reasoning VideoQA Model Yes Yes

December 21, 2023

Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video Grounding
Haifeng Huang, Yang Zhao, Zehan Wang, Yan Xia, Zhou Zhao
Domain Adaptation Video Question Fine Grained Video Representation Temporal Video Grounding Scene Knowledge

December 8, 2023

Retrieval-based Video Language Model for Efficient Long Video Question Answering
Jiaqi Xu, Cuiling Lan, Wenxuan Xie, Xuejin Chen, Yan Lu
Video Question Answering Video Question Long Video Understanding Video Token

November 27, 2023

Characterizing Video Question Answering with Sparsified Inputs
Shiyuan Huang, Robinson Piramuthu, Vicente Ordonez, Shih-Fu Chang, Gunnar A. Sigurdsson
Video Question Answering Video Question VideoQA Benchmark Video Language Task Sparse Motion Input Sparsity

November 25, 2023

AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering
Xiuyuan Chen, Yuan Lin, Yuchen Zhang, Weiran Huang
Large Vision Language Model Video Question Benchmark Score

November 2, 2023

Long Story Short: a Summarize-then-Search Method for Long Video Question Answering
Jiwan Chung, Youngjae Yu
Large Language Model Language Model Zero Shot Text Summarization Video Question Answering Video Question Long Story

September 27, 2023

Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts
Deniz Engin, Yannis Avrithis
Zero Shot Vision Language Model Prompt Learning Large Scale Pre Trained Model Video Question Multi Modal PromPt Neural Mapping

August 16, 2023

Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer
Guangyi Chen, Xiao Liu, Guangrun Wang, Kun Zhang, Philip H. S. Torr, Xiao-Ping Zhang, Yansong Tang
Semantic Alignment Temporal Alignment Video Language Video Question Hadamard Adapter Image Text Pretraining

July 22, 2023

Discovering Spatio-Temporal Rationales for Video Question Answering
Yicong Li, Junbin Xiao, Chun Feng, Xiang Wang, Tat-Seng Chua
Spatio Temporal Video Question Answering Multiple Choice VideoQA Video Question

July 9, 2023

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models
Wei Han, Hui Chen, Min-Yen Kan, Soujanya Poria
Video Understanding Video Question Answering Video Transformer Video Question Image Text Model Video Dynamic Video Understanding Model

Video Question

Papers

CinePile: A Long Video Question Answering Dataset and Benchmark

Video sentence grounding with temporally global textual knowledge

Listen Then See: Video Alignment with Speaker Attention

CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes

VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding

Ranking Distillation for Open-Ended Video Question Answering with Insufficient Labels

DAM: Dynamic Adapter Merging for Continual Video QA Learning

Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering

BDIQA: A New Dataset for Video Question Answering to Explore Cognitive Reasoning through Theory of Mind

YTCommentQA: Video Question Answerability in Instructional Videos

Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning for Video Question Answering

Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video Grounding

Retrieval-based Video Language Model for Efficient Long Video Question Answering

Characterizing Video Question Answering with Sparsified Inputs

AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering

Long Story Short: a Summarize-then-Search Method for Long Video Question Answering

Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts

Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer

Discovering Spatio-Temporal Rationales for Video Question Answering

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models