Chinese shoRt vidEo

Research on Chinese short video focuses on improving search and retrieval capabilities, particularly by leveraging multimodal data (video content and associated text). Current efforts concentrate on developing large-scale benchmark datasets with diverse video covers and user-generated text, enabling the training and evaluation of advanced vision-language models. These models, often incorporating techniques like multimodal alignment and generative pre-trained transformers, aim to enhance both the accuracy of video retrieval and the quality of automatically generated video titles. This work has significant implications for improving the user experience of Chinese short video platforms and advancing the broader field of multimodal learning.

Papers

January 19, 2024

CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios
Xiangshuo Qiao, Xianxin Li, Xiaozhe Qu, Jie Zhang, Yang Liu, Yu Luo, Cihang Jin, Jin Ma
Short Video Text Recognition Benchmark Chinese shoRt vidEo

March 31, 2022

CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation
Ziqi Zhang, Yuxin Chen, Zongyang Ma, Zhongang Qi, Chunfeng Yuan, Bing Li, Ying Shan, Weiming Hu
New Benchmark Audio Captioning Visual Creation Chinese shoRt vidEo

Chinese shoRt vidEo

Papers

CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios

CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation