the latest in aiBeta

Video Summarization

Video summarization aims to automatically condense lengthy video content into concise, informative summaries, either as shorter videos or textual descriptions, preserving key information and user relevance. Current research emphasizes multimodal approaches, integrating visual and audio features with large language models (LLMs) and transformer-based architectures, often employing techniques like attention mechanisms, graph representations, and efficient token mixing to improve both accuracy and computational efficiency. This field is crucial for managing the ever-increasing volume of video data, impacting diverse applications from social media and education to surveillance and personalized content delivery. The development of more efficient and accurate summarization methods is driving advancements in both computer vision and natural language processing.

67papers

Papers

May 6, 2025

SD-VSum: A Method and Dataset for Script-Driven Video Summarization
Manolis Mylonas, Evlampios Apostolidis, Vasileios Mezaris
CERTH-ITI
Video Summarization Data Set Human Written Summary Structured Summary Practical Method Video Summary

April 25, 2025

HierSum: A Global and Local Attention Mechanism for Video Summarization
Apoorva Beedu, Irfan Essa
Georgia Institute of Technology●Google DeepMind
Video Summarization Fine Grained Structured Summary Instructional Video

April 22, 2025

ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting
Jian Hu, Dimitrios Korkinof, Shaogang Gong, Mariano Beguerisse-Diaz
Queen Mary University of London●Spotify
Video Summarization Long Video Meta Prompting Long Form Video Understanding Video Model

April 15, 2025

Video Summarization with Large Language Models
Min Jung Lee, Dayoung Gong, Minsu Cho
Pohang University of Science and Technology (POSTECH)●GenGenAI
Video Content Video Summarization

April 13, 2025

Automatic Detection of Intro and Credits in Video using CLIP and Multihead Attention
Vasilii Korolkov, Andrey Yanchenko
Inc.●Independent Researcher
Single CLIP Source Video Video Summarization Source Attribution Highlight Detection Automatic Detection Multimodal Learning Transition Detection

March 8, 2025

A Novel Trustworthy Video Summarization Algorithm Through a Mixture of LoRA Experts
Wenzhuo Du, Gerun Wang, Guancheng Chen, Hang Zhao, Xin Li, Jian Gao
People’s Public Security University of China●Key Laboratory of Security Prevention Technology and Risk Assessment of the Ministry of Public Security
Video Summarization Video Data Mixture Component Video Summary

February 12, 2025

What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations
Dongqi Liu, Chenxi Whitehouse, Xi Yu, Louis Mahon, Rohit Saxena, Zheng Zhao, Yifu Qiu, Mirella Lapata, Vera Demberg
Multimodal Learning Abstractive Summary Video Summarization

January 1, 2025

FullTransNet: Full Transformer with Local-Global Attention for Video Summarization
Libin Lan, Lu Jiang, Tianshu Yu, Xiaojuan Liu, Zhongshi He
Video Summarization Structured Summary Encoder Decoder Full Transformer Source Video Global Attention

December 18, 2024

Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning
Yunbin Tu, Liang Li, Li Su, Qingming Huang
Audio Visual Representation Moment Retrieval Segmentation Based Approach Video Summarization Audio Visual

December 12, 2024

December 11, 2024

Video Summarization using Denoising Diffusion Probabilistic Model
Zirui Shang, Yubo Zhu, Hongxi Li, Shuo yang, Xinxiao Wu
Diffusion Model Video Summarization Denoising Diffusion Probabilistic Model Noisy Annotation

November 5, 2024

Personalized Video Summarization by Multimodal Video Understanding
Brian Chen, Xiangyuan Zhao, Yingnan Zhu
Multimodal Video Understanding Video Summarization

October 17, 2024

Your Interest, Your Summaries: Query-Focused Long Video Summarization
Nirav Patel, Payal Prajapati, Maitrik Shah
Video Summarization Video Summary Structured Summary

October 9, 2024

Exploring Efficient Foundational Multi-modal Models for Video Summarization
Karan Samel, Apoorva Beedu, Nitish Sontakke, Irfan Essa
Video Summarization Multi Modal Foundation Model Video Language Model Multi Modal Model Modality Specific Input Modality

October 6, 2024

October 4, 2024

Does SpatioTemporal information benefit Two video summarization benchmarks?
Aashutosh Ganesh, Mirela Popa, Daan Odijk, Nava Tintarev
Spatio Temporal Video Summarization Temporal Information

September 23, 2024

EDSNet: Efficient-DSNet for Video Summarization
Ashish Prasad, Pranav Jeevan, Amit Sethi
Abstractive Summarisation Video Summarization Neural Summarization

September 22, 2024

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
Yan Shu, Zheng Liu, Peitian Zhang, Minghao Qin, Junjie Zhou, Zhengyang Liang, Tiejun Huang, Bo Zhao
Video Summarization Video Snapshot Video Understanding Benchmark Video Understanding Long Form Video Understanding