Summary Worthy Visual

"Summary-worthy visual" research focuses on automatically generating concise visual and textual summaries from diverse multimodal inputs like images, videos, and text, aiming to capture the most salient information for a given context or user preference. Current research emphasizes leveraging large vision-language models (LVLMs) and incorporating user feedback (e.g., reviews) to improve the relevance and quality of these summaries, often employing novel architectures designed for cross-modal understanding and generation. This work has significant implications for improving information access and user experience in various applications, including recommendation systems, news aggregation, and video summarization.

Papers

February 13, 2024

Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models
Yuqing Liu, Yu Wang, Lichao Sun, Philip S. Yu
Large Vision Language Model Image Understanding Multimodal Recommendation Summary Worthy Visual

October 30, 2023

Tell Me What Is Good About This Property: Leveraging Reviews For Segment-Personalized Image Collection Summarization
Monika Wysoczanska, Moran Beladev, Karen Lastmann Assaraf, Fengjun Wang, Ofri Kleinfeld, Gil Amsalem, Hadas Harush Boker
Structured Summary User Intent Image Collection Prominent Review Summary Worthy Visual

May 8, 2023

Learning Summary-Worthy Visual Representation for Abstractive Summarization in Video
Zenan Xu, Xiaojun Meng, Yasheng Wang, Qinliang Su, Zexuan Qiu, Xin Jiang, Qun Liu
Multimodal Phenomenon Source Video Abstractive Summarization Summary Worthy Visual

March 21, 2023

VideoXum: Cross-modal Visual and Textural Summarization of Videos
Jingyang Lin, Hang Hua, Ming Chen, Yikang Li, Jenhao Hsiao, Chiuman Ho, Jiebo Luo
Cross Modal Gameplay Video Text Summarization Cross Modal Information Video Summary Summary Worthy Visual

July 26, 2022

NewsStories: Illustrating articles with visual summaries
Reuben Tan, Bryan A. Plummer, Kate Saenko, JP Lewis, Avneesh Sud, Thomas Leung
Self Supervised Image Text Article Centered Factor Large Scale Multimodal Dataset Summary Worthy Visual

Summary Worthy Visual

Papers

Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models

Tell Me What Is Good About This Property: Leveraging Reviews For Segment-Personalized Image Collection Summarization

Learning Summary-Worthy Visual Representation for Abstractive Summarization in Video

VideoXum: Cross-modal Visual and Textural Summarization of Videos

NewsStories: Illustrating articles with visual summaries