Audio Visual Video Recognition

Audio-visual video recognition (AVVR) integrates audio and visual information to improve the accuracy and robustness of video categorization and speech recognition. Current research emphasizes improving the handling of incremental learning, where models must adapt to new classes without forgetting previously learned information, often employing transformer-based architectures and techniques like knowledge distillation to address this challenge. This field is significant for advancing both fundamental understanding of multimodal perception and practical applications such as robust speech recognition in noisy environments and more efficient video indexing and retrieval systems.

Papers

January 11, 2024

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition
Yukun Zuo, Hantao Yao, Liansheng Zhuang, Changsheng Xu
Mutual Distillation True Class Hierarchical Augmentation Audio Visual Video Recognition

August 21, 2023

Audio-Visual Class-Incremental Learning
Weiguo Pian, Shentong Mo, Yunhui Guo, Yapeng Tian
Incremental Learning Audio Visual Retrieval Audio Visual Correlation Audio Visual Video Recognition

February 28, 2023

Practice of the conformer enhanced AUDIO-VISUAL HUBERT on Mandarin and English
Xiaoming Ren, Chao Li, Shenjian Wang, Biao Li
Chinese Character Practice Mode One Pas Multiple Conformer Audio Visual Video Recognition

January 25, 2022

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video
Dmitriy Serdyuk, Otavio Braga, Olivier Siohan
Speech Recognition Video Transformer Audio Visual Speech Recognition Multi Person Multi Talker Audio Visual Video Recognition

Audio Visual Video Recognition

Papers

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition

Audio-Visual Class-Incremental Learning

Practice of the conformer enhanced AUDIO-VISUAL HUBERT on Mandarin and English

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video