Video Question

Video question answering (VideoQA) aims to enable computers to understand and respond to questions about video content, bridging the gap between visual and linguistic understanding. Current research focuses on improving model efficiency and accuracy by employing techniques like adaptive frame sampling, multi-agent systems, and leveraging large language models (LLMs) for reasoning and answer generation, often incorporating attention mechanisms and contrastive learning. This field is significant for advancing artificial intelligence's ability to interact with complex multimedia data, with potential applications ranging from assistive technologies for visually impaired individuals to more efficient video search and analysis.

Papers

July 9, 2023

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models
Wei Han, Hui Chen, Min-Yen Kan, Soujanya Poria
Video Understanding Video Question Answering Video Transformer Video Question Image Text Model Video Dynamic Video Understanding Model

June 15, 2023

Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models
Junting Pan, Ziyi Lin, Yuying Ge, Xiatian Zhu, Renrui Zhang, Yi Wang, Yu Qiao, Hongsheng Li
Video Question Answering Captioning Model Multiple Choice VideoQA Video Question VideoQA Model VideoQA Benchmark Answer Retrieval

May 14, 2023

Semantic-aware Dynamic Retrospective-Prospective Reasoning for Event-level Video Question Answering
Chenyang Lyu, Tianbo Ji, Yvette Graham, Jennifer Foster
Video Question Answering Video Question Goal Reasoning

May 6, 2023

Transform-Equivariant Consistency Learning for Temporal Sentence Grounding
Daizong Liu, Xiaoye Qu, Jianfeng Dong, Pan Zhou, Zichuan Xu, Haozhao Wang, Xing Di, Weining Lu, Yu Cheng
Consistency Loss Video Question Temporal Sentence Grounding

March 24, 2023

Query-Dependent Video Representation for Moment Retrieval and Highlight Detection
WonJun Moon, Sangeek Hyun, SangUk Park, Dongchan Park, Jae-Pil Heo
Video Understanding Video Representation Video Moment Retrieval Video Question Moment Retrieval Highlight Detection

February 16, 2023

MINOTAUR: Multi-task Video Grounding From Multimodal Queries
Raghav Goyal, Effrosyni Mavroudi, Xitong Yang, Sainbayar Sukhbaatar, Leonid Sigal, Matt Feiszli, Lorenzo Torresani, Du Tran
Video Understanding Modality Specific Video Understanding Task Video Question Spatio Temporal Video Grounding Multimodal Query

September 14, 2022

WildQA: In-the-Wild Video Question Answering
Santiago Castro, Naihao Deng, Pingxuan Huang, Mihai Burzo, Rada Mihalcea
Video Question Answering Video Question Evidence Detection

August 1, 2022

Video Question Answering with Iterative Video-Text Co-Tokenization
AJ Piergiovanni, Kairo Morton, Weicheng Kuo, Michael S. Ryoo, Anelia Angelova
Video Question Answering Video Question Stream Encoder

July 27, 2022

June 6, 2022

Invariant Grounding for Video Question Answering
Yicong Li, Xiang Wang, Junbin Xiao, Wei Ji, Tat-Seng Chua
Video Question Answering Multiple Choice VideoQA Video Question VideoQA Model Common Grounding

June 2, 2022

Structured Two-stream Attention Network for Video Question Answering
Lianli Gao, Pengpeng Zeng, Jingkuan Song, Yuan-Fang Li, Wu Liu, Tao Mei, Heng Tao Shen
Visual Question Answering Video Question Answering Video Question Stream Attention

April 25, 2022

Rethinking Multi-Modal Alignment in Video Question Answering from Feature and Sample Perspectives
Shaoning Xiao, Long Chen, Kaifeng Gao, Zhao Wang, Yi Yang, Zhimeng Zhang, Jun Xiao
External Sample Video Question Answering Content Based Feature Multiple Choice VideoQA Video Question VideoQA Model Multi Modal Alignment

January 14, 2022

Unsupervised Temporal Video Grounding with Deep Semantic Clustering
Daizong Liu, Xiaoye Qu, Yinzhen Wang, Xing Di, Kai Zou, Yu Cheng, Zichuan Xu, Pan Zhou
Video Question Temporal Video Grounding Semantic Aggregation