Multilingual Audio Visual

Multilingual audio-visual research focuses on developing computational models that understand and process audio and visual information across multiple languages. Current efforts concentrate on improving the accuracy and scalability of tasks like sign language translation, 3D talking head generation, and cross-lingual video-text alignment, often employing encoder-decoder architectures and knowledge distillation techniques to leverage data from high-resource languages to benefit low-resource ones. These advancements are significant for bridging communication barriers, enabling more inclusive technologies, and advancing the field of multimodal learning by creating larger, more diverse datasets and robust models.

Papers

October 15, 2024

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval
Reno Kriz, Kate Sanders, David Etter, Kenton Murray, Cameron Carpenter, Kelly Van Ochten, Hannah Recknor, Jimena Guallar-Blasco, Alexander Martin, Ronald Colaianni, Nolan King, Eugene Yang, Benjamin Van Durme
App to App Retrieval Multilingual Benchmark Multimodal Retrieval Multimodal Chart Event Based Video Retrieval Datasets Multilingual Audio Visual

July 16, 2024

Scaling Sign Language Translation
Biao Zhang, Garrett Tanzer, Orhan Firat
Pre Trained Sign Language Sign Language Translation Machine Translation Model Multilingual Audio Visual Cross Lingual Cross Modal

June 20, 2024

MultiTalk: Enhancing 3D Talking Head Generation Across Languages with Multilingual Video Dataset
Kim Sung-Bin, Lee Chae-Yeon, Gihun Son, Oh Hyun-Bin, Janghoon Ju, Suekyeong Nam, Tae-Hyun Oh
3D Content Head Generation Multi Speaker Driven 3D Cross Lingual Performance Multilingual Audio Visual

June 18, 2024

Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding
Yidan Sun, Jianfei Yu, Boyang Li
Data Set Movie Review Video Text Alignment Multilingual Audio Visual Story Understanding

September 15, 2023

Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper
Jeong Hun Yeo, Minsu Kim, Shinji Watanabe, Yong Man Ro
Speech Recognition Unknown Language State of the Art Whisper Visual Speech Recognition Automatic Labeling Limited Labeled Data Multilingual Audio Visual

March 1, 2023

MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Mohamed Anwar, Bowen Shi, Vedanuj Goswami, Wei-Ning Hsu, Juan Pino, Changhan Wang
Speech Recognition Multilingual Audio Visual Speech Recognition Multilingual Audio Visual Audio Visual Speech Speech to Text Translation

October 7, 2022

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval
Andrew Rouditchenko, Yung-Sung Chuang, Nina Shvetsova, Samuel Thomas, Rogerio Feris, Brian Kingsbury, Leonid Karlinsky, David Harwath, Hilde Kuehne, James Glass
Cross Modal Knowledge Distillation Multilingual Audio Visual Multilingual Text Video Retrieval

November 8, 2021

Cascaded Multilingual Audio-Visual Learning from Videos
Andrew Rouditchenko, Angie Boggust, David Harwath, Samuel Thomas, Hilde Kuehne, Brian Chen, Rameswar Panda, Rogerio Feris, Brian Kingsbury, Michael Picheny, James Glass
Gameplay Video Audio Caption Multilingual Audio Visual Self Supervised Audio Visual

Multilingual Audio Visual

Papers

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

Scaling Sign Language Translation

MultiTalk: Enhancing 3D Talking Head Generation Across Languages with Multilingual Video Dataset

Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding

Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper

MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval

Cascaded Multilingual Audio-Visual Learning from Videos