Visual Speech Recognition

Visual speech recognition (VSR) aims to decipher spoken language solely from lip movements, a challenging task due to the inherent ambiguity of visual speech cues. Current research heavily focuses on improving model accuracy and efficiency through techniques like knowledge distillation from audio-based speech recognition models, end-to-end architectures incorporating CTC/attention mechanisms, and the use of large language models for context modeling. Advances in VSR hold significant implications for applications requiring silent communication or enhancing speech recognition in noisy environments, and are driving innovation in both computer vision and speech processing.

Papers

July 10, 2023

SparseVSR: Lightweight and Noise Robust Visual Speech Recognition
Adriana Fernandez-Lopez, Honglie Chen, Pingchuan Ma, Alexandros Haliassos, Stavros Petridis, Maja Pantic
Lightweight High Sparse Network Sparse Model Visual Speech Recognition Magnitude Based Pruning

June 14, 2023

Automated Speaker Independent Visual Speech Recognition: A Comprehensive Survey
Praneeth Nemani, G. Sai Krishna, Supriya Kundrapu
Comprehensive Survey Visual Speech Recognition Speaker Independent

May 23, 2023

Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning
Sara Kashiwagi, Keitaro Tanaka, Qi Feng, Shigeo Morishima
Metric Learning Visual Speech Recognition Similar Representation

May 8, 2023

Multi-Temporal Lip-Audio Memory for Visual Speech Recognition
Jeong Hun Yeo, Minsu Kim, Yong Man Ro
Based Model Visual Speech Recognition Multi Temporal Lip Audio Memory

March 30, 2023

SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision
Xubo Liu, Egor Lakomkin, Konstantinos Vougioukas, Pingchuan Ma, Honglie Chen, Ruiming Xie, Morrie Doulaty, Niko Moritz, Jáchym Kolář, Stavros Petridis, Maja Pantic, Christian Fuegen
Visual Speech Recognition Deep Supervision Lip Motion Audio Driven Visual Synthesis

February 27, 2023

Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video
Minsu Kim, Chae Won Kim, Yong Man Ro
LeArning Abstract Facial Video Speech Recording Visual Speech Recognition Visual Alignment

February 17, 2023

Conformers are All You Need for Visual Speech Recognition
Oscar Chang, Hank Liao, Dmitriy Serdyuk, Ankit Shah, Olivier Siohan
Speech Recognition Visual Speech Recognition One Pas Multiple Conformer Temporal Receptive Field Deep Framework

February 16, 2023

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition
Minsu Kim, Hyung-Il Kim, Yong Man Ro
Deep Neural Network Prompt Tuning Visual Speech Recognition

December 12, 2022

Jointly Learning Visual and Auditory Speech Representations from Raw Data
Alexandros Haliassos, Pingchuan Ma, Rodrigo Mira, Stavros Petridis, Maja Pantic
Speech Recognition Raw Data Visual Speech Recognition Audio Encoder

November 21, 2022

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning
Qiushi Zhu, Long Zhou, Ziqiang Zhang, Shujie Liu, Binxing Jiao, Jie Zhang, Lirong Dai, Daxin Jiang, Jinyu Li, Furu Wei
Speech Representation Visual Speech Recognition Cross Modal Representation Learning Masked Prediction Audio Visual Large Language Model

June 5, 2022

Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models
Hadeel Mabrouk, Omar Abugabal, Nourhan Sakr, Hesham M. Eraqi
Sensory Input Visual Speech Recognition Cross Modal Knowledge Distillation Word Model

May 28, 2022

Is Lip Region-of-Interest Sufficient for Lipreading?
Jing-Xuan Zhang, Gen-Shun Wan, Jia Pan
Self Supervised Visual Speech Recognition Lip Reading Multi Temporal Lip Audio Memory

May 22, 2022

Deep Learning for Visual Speech Analysis: A Survey
Changchong Sheng, Gangyao Kuang, Liang Bai, Chenping Hou, Yulan Guo, Xin Xu, Matti Pietikäinen, Li Liu
Deep Learning Timely Survey Visual Speech Recognition Visual Speech

May 11, 2022

End-to-End Multi-Person Audio/Visual Automatic Speech Recognition
Otavio Braga, Takaki Makino, Olivier Siohan, Hank Liao
ASR Model Audio Visual Speech Recognition Visual Speech Recognition

February 26, 2022

Visual Speech Recognition for Multiple Languages in the Wild
Pingchuan Ma, Stavros Petridis, Maja Pantic
Deep Learning Wild Challenge Audio Visual Auxiliary Task Visual Speech Recognition Multiple Language

February 15, 2022

Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition
Zi-Qiang Zhang, Jie Zhang, Jian-Shu Zhang, Ming-Hui Wu, Xin Fang, Li-Rong Dai
LeArning Abstract Audio Visual Audio Visual Speech Recognition Visual Speech Recognition Audio Visual Representation Audio Visual Representation Learning Audio Visual Speech Representation