Zero Shot Video

Zero-shot video recognition aims to classify videos into categories never seen during model training, leveraging the power of pre-trained vision-language models (VLMs) and multimodal data. Current research focuses on improving the accuracy of these models by incorporating temporal information effectively, developing novel architectures like those based on CLIP, and employing techniques such as interpolated weight optimization and cross-modal attention to better align visual and textual representations. These advancements hold significant promise for applications requiring robust video understanding in scenarios with limited labeled data, such as environmental monitoring and automated content analysis.

Papers

October 8, 2023

Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and Data
Zuxuan Wu, Zejia Weng, Wujian Peng, Xitong Yang, Ang Li, Larry S. Davis, Yu-Gang Jiang
Optimization Purpose Raw Data Contrastive Language Image Efficient Architecture Video Retrieval Datasets Zero Shot Video

September 18, 2023

Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice Alignment
Zheng-Yan Sheng, Yang Ai, Yan-Nian Chen, Zhen-Hua Ling
Zero Shot Voice Conversion Face Voice Zero Shot Video

August 14, 2023

Orthogonal Temporal Interpolation for Zero-Shot Video Recognition
Yan Zhu, Junbao Zhuo, Bin Ma, Jiajia Geng, Xiaoming Wei, Xiaolin Wei, Shuhui Wang
Temporal Feature Temporal Interpolation Spatial Temporal Video Zero Shot Video Orthogonal Random Feature

July 20, 2023

Ethosight: A Reasoning-Guided Iterative Learning System for Nuanced Perception based on Joint-Embedding & Contextual Label Affinity
Hugo Latapie, Shan Yu, Patrick Hammer, Kristinn R. Thorisson, Vahagn Petrosyan, Brandon Kynoch, Alind Khare, Payman Behnam, Alexey Tumanov, Aksheit Saxena, Anish Aralikatti, Hanning Chen, Mohsen Imani, Mike Archbold, Tangrui Li, Pei Wang, Justin Hart
Continuous Learning Iterative Reasoning Domain Based Nuance Traditional Computer Vision Zero Shot Video

February 1, 2023

Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization
Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang
Action Recognition Contrastive Language Image Video Classification Zero Shot Video Open Vocabulary Action Recognition

July 15, 2022

Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models
Rui Qian, Yeqing Li, Zheng Xu, Ming-Hsuan Yang, Serge Belongie, Yin Cui
Language Model Pre Trained Optical Flow Open Vocabulary Video Classification Vision Encoders Zero Shot Video

March 29, 2022

Alignment-Uniformity aware Representation Learning for Zero-shot Video Classification
Shi Pu, Kaili Zhao, Mao Zheng
Unseen Class Visual Semantic Uniformity Metric Supervised Contrastive Loss Concept Representation Zero Shot Video

March 7, 2022

Audio-visual Generalised Zero-shot Learning with Cross-modal Attention and Language
Otniel-Bogdan Mercea, Lukas Riesch, A. Sophia Koepke, Zeynep Akata
Human Language Audio Visual Cross Modal Attention Multi Modal Representation Zero Shot Video Audio Visual Generalized Zero Shot

Zero Shot Video

Papers

Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and Data

Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice Alignment

Orthogonal Temporal Interpolation for Zero-Shot Video Recognition

Ethosight: A Reasoning-Guided Iterative Learning System for Nuanced Perception based on Joint-Embedding & Contextual Label Affinity

Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization

Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models

Alignment-Uniformity aware Representation Learning for Zero-shot Video Classification

Audio-visual Generalised Zero-shot Learning with Cross-modal Attention and Language