Cued Speech

Cued Speech (CS) is a visual communication system combining lipreading with hand gestures to enhance speech understanding for the hearing impaired. Current research focuses on improving automatic CS recognition (ACSR) using advanced techniques like multi-modal fusion transformers and attention mechanisms to effectively integrate lip and hand information, as well as generating CS videos from audio or text using diffusion models. These advancements aim to create more accurate and efficient ACSR systems and improve CS video generation, ultimately enhancing communication accessibility for deaf and hard-of-hearing individuals. The development of large, multi-speaker CS datasets across various languages is also a key area of progress, facilitating the training and evaluation of these models.

Papers

January 8, 2025

Cued Speech Generation Leveraging a Pre-trained Audiovisual Text-to-Speech Model
Sanjana Sankar, Martin Lenglet, Gerard Bailly, Denis Beautemps, Thomas Hueber
Speech Analysis Audio Visual Text to Speech Model Lip Movement Cue Generation Cued Speech

October 21, 2024

Multi-Level Speaker Representation for Target Speaker Extraction
Ke Zhang, Junjie Li, Shuai Wang, Yangjie Wei, Yi Wang, Yannan Wang, Haizhou Li
Pre Trained Speaker Identity Target Speaker Extraction Cued Speech

September 21, 2024

Exploring Automated Keyword Mnemonics Generation with Large Language Models via Overgenerate-and-Rank
Jaewook Lee, Hunter McNichols, Andrew Lan
Visual Cue Model Degeneracy Cued Speech Vocabulary Learning Keyword Mnemonic

April 30, 2024

Bridge to Non-Barrier Communication: Gloss-Prompted Fine-grained Cued Speech Gesture Generation with Diffusion Model
Wentao Lei, Li Liu, Jun Wang
Diffusion Model Co Speech Gesture Railway BRIDGE Member Lip Movement Cued Speech Flexible Communication

January 31, 2024

Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition
Lei Liu, Li Liu, Haizhou Li
Fine Grained Computation Method Parameter Efficient Fusion Transformer Cued Speech

October 17, 2023

Generative error correction for code-switching speech recognition using large language models
Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Hexin Liu, Sabato Marco Siniscalchi, Eng Siong Chng
Large Language Model Scientific Hypothesis Code Switching Speech Recognition Cued Speech Generative Error Correction

September 28, 2023

LAE-ST-MoE: Boosted Language-Aware Encoder Using Speech Translation Auxiliary Task for E2E Code-switching ASR
Guodong Ma, Wenxuan Wang, Yuke Li, Yuting Yang, Binbin Du, Haoran Fu
Mixture of Expert Speech Translation Connectionist Temporal Classification Cued Speech Code Switching Automatic Speech Recognition Language Aware Encoder

June 29, 2023

Learning Multilingual Expressive Speech Representation for Prosody Prediction without Parallel Data
Jarod Duret, Titouan Parcollet, Yannick Estève
Parallel Data Speech Resynthesis Discrete Speech Unit Cued Speech Prosody Prediction Cross Lingual Emotion Multilingual Speech Representation

June 14, 2023

Investigating the dynamics of hand and lips in French Cued Speech using attention mechanisms and CTC-based decoding
Sanjana Sankar, Denis Beautemps, Frédéric Elisei, Olivier Perrotin, Thomas Hueber
Attention Mechanism Visual Cue Human Hand Lip Reading Phonetic Information Multi Temporal Lip Audio Memory Cued Speech

June 5, 2023

A Novel Interpretable and Generalizable Re-synchronization Model for Cued Speech based on a Multi-Cuer Corpus
Lufei Gao, Shan Huang, Li Liu
Long Form Novel Visual Cue Synchronization Parameter Update Barrier Phonetic Information Unlabeled Corpus Multi Temporal Lip Audio Memory Cued Speech

January 16, 2023

Improving Target Speaker Extraction with Sparse LDA-transformed Speaker Embeddings
Kai Liu, Xucheng Wan, Ziqing Du, Huan Zhou
Speaker Verification Many Sparse Speaker Embeddings Target Speaker Extraction Cued Speech Speaker Discriminability

December 2, 2022

Cross-Modal Mutual Learning for Cued Speech Recognition
Lei Liu, Li Liu
Modality Specific Information Cued Speech

April 11, 2022

Multistream neural architectures for cued-speech recognition using a pre-trained visual feature extractor and constrained CTC decoding
Sanjana Sankar, Denis Beautemps, Thomas Hueber
Neural Architecture CTC Based International Phonetic Alphabet Lip Reading Pre Trained Feature Extractor Cued Speech Convolutional Decoder Universal Speech Representation

February 21, 2022

L-SpEx: Localized Target Speaker Extraction
Meng Ge, Chenglin Xu, Longbiao Wang, Eng Siong Chng, Jianwu Dang, Haizhou Li
Target Speaker Extraction Speaker Extraction Speaker Localization Cued Speech

Cued Speech

Papers

Cued Speech Generation Leveraging a Pre-trained Audiovisual Text-to-Speech Model

Multi-Level Speaker Representation for Target Speaker Extraction

Exploring Automated Keyword Mnemonics Generation with Large Language Models via Overgenerate-and-Rank

Bridge to Non-Barrier Communication: Gloss-Prompted Fine-grained Cued Speech Gesture Generation with Diffusion Model

Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition

Generative error correction for code-switching speech recognition using large language models

LAE-ST-MoE: Boosted Language-Aware Encoder Using Speech Translation Auxiliary Task for E2E Code-switching ASR

Learning Multilingual Expressive Speech Representation for Prosody Prediction without Parallel Data

Investigating the dynamics of hand and lips in French Cued Speech using attention mechanisms and CTC-based decoding

A Novel Interpretable and Generalizable Re-synchronization Model for Cued Speech based on a Multi-Cuer Corpus

Improving Target Speaker Extraction with Sparse LDA-transformed Speaker Embeddings

Cross-Modal Mutual Learning for Cued Speech Recognition

Multistream neural architectures for cued-speech recognition using a pre-trained visual feature extractor and constrained CTC decoding

L-SpEx: Localized Target Speaker Extraction