Audio Visual Speech

Audio-visual speech research focuses on leveraging the combined information from audio and visual speech signals to improve speech processing tasks. Current research emphasizes direct audio-visual to audio-visual translation, employing models that learn unified audio-visual representations through self-supervised learning and transformer-based architectures to achieve real-time, high-fidelity translation and robust speech recognition even in noisy conditions. This interdisciplinary field is significant for advancing speech technology, enabling improved speech recognition, translation, and enhancement, with applications ranging from virtual meetings to assistive technologies for the hearing impaired.

Papers

December 23, 2023

TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head Translation
Xize Cheng, Rongjie Huang, Linjun Li, Tao Jin, Zehan Wang, Aoxiong Yin, Minglei Li, Xinyu Duan, changpeng yang, Zhou Zhao
Human Head Direct Speech to Speech Translation Speech to Unit Video to Speech Synthesis Audio Visual Speech

December 5, 2023

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation
Jeongsoo Choi, Se Jin Park, Minsu Kim, Yong Man Ro
Audio Visual Speech Parallel English Translation Dataset

September 29, 2023

AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition
Andrew Rouditchenko, Ronan Collobert, Tatiana Likhomanenko
Audio Visual Speech Recognition Visual Speech Recognition Visual Speech Audio Visual Speech Continuous Pseudo Labeling Audio Visual Approach

June 1, 2023

Speech inpainting: Context-based speech synthesis guided by video
Juan F. Montesinos, Daniel Michelsanti, Gloria Haro, Zheng-Hua Tan, Jesper Jensen
Speech Analysis Speech Synthesis Source Video Visual Modality Audio Visual Transformer Audio Visual Model Audio Visual Speech

March 1, 2023

MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Mohamed Anwar, Bowen Shi, Vedanuj Goswami, Wei-Ning Hsu, Juan Pino, Changhan Wang
Speech Recognition Multilingual Audio Visual Speech Recognition Audio Visual Speech Multilingual Audio Visual Speech to Text Translation

May 15, 2022

Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERT
Bowen Shi, Abdelrahman Mohamed, Wei-Ning Hsu
LeArning Abstract Pre Training Audio Visual Audio Visual Speech Representation Audio Visual Speech

March 31, 2022

Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis
Karren Yang, Dejan Markovic, Steven Krenn, Vasu Agrawal, Alexander Richard
Audio Visual Audio Visual Speech Enhancement Audio Visual Speech Representation Audio Visual Speech

January 5, 2022

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction
Bowen Shi, Wei-Ning Hsu, Kushal Lakhotia, Abdelrahman Mohamed
Lip Reading Audio Visual Representation Masked Multimodal Audio Visual Speech Representation Audio Visual Speech

Audio Visual Speech

Papers

TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head Translation

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation

AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition

Speech inpainting: Context-based speech synthesis guided by video

MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation

Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERT

Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction