Speech Translation

Speech translation (ST) aims to automatically convert spoken language in one language into written or spoken text in another, bridging communication barriers. Current research heavily utilizes large language models (LLMs) integrated with speech foundation models (SFMs), often employing techniques like chain-of-thought prompting and multimodal approaches to improve accuracy and reduce latency, particularly in simultaneous ST. These advancements are significant for improving cross-lingual communication in various applications, from real-time interpretation to accessibility tools, and are driving innovation in both model architectures and evaluation methodologies.

Papers

March 14, 2023

Adapting Offline Speech Translation Models for Streaming with Future-Aware Distillation and Inference
Biao Fu, Minpeng Liao, Kai Fan, Zhongqiang Huang, Boxing Chen, Yidong Chen, Xiaodong Shi
Scientific Inference Speech Representation Speech Translation Predictive Inference Offline Speech Translation

January 27, 2023

Pre-training for Speech Translation: CTC Meets Optimal Transport
Phuong-Hang Le, Hongyu Gong, Changhan Wang, Juan Pino, Benjamin Lecouteux, Didier Schwab
Optimal Transport Pre Training Speech Translation Connectionist Temporal Classification Modality Gap Textual Input

December 19, 2022

December 16, 2022

BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric
Mingda Chen, Paul-Ambroise Duquenne, Pierre Andrews, Justine Kao, Alexandre Mourachko, Holger Schwenk, Marta R. Costa-jussà
Automatic Speech Recognition Speech Translation Automatic Speech Recognition System End to End Speech Translation Reference Free Evaluation Multimodal Encoder

December 15, 2022

Attention as a Guide for Simultaneous Speech Translation
Sara Papi, Matteo Negri, Marco Turchi
Human Attention Speech Translation Encoder Decoder Practical Guide Simultaneous Speech Translation Attention Based Encoder Decoder Attention Based Policy

December 11, 2022

End-to-End Speech Translation of Arabic to English Broadcast News
Fethi Bougares, Salim Jouili
Speech Translation Arabic Speaker End to End Speech Translation Online News Speech Translation System Arabic Speech Text Machine Translation

December 7, 2022

M3ST: Mix at Three Levels for Speech Translation
Xuxin Cheng, Qianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang, Yuexian Zou
Speech Translation Training Corpus Machine Translation System Multiple Level End Speech to Text Translation Speech Translation Benchmark

December 4, 2022

Improving End-to-end Speech Translation by Leveraging Auxiliary Speech and Text Data
Yuhao Zhang, Chen Xu, Bojie Hu, Chunliang Zhang, Tong Xiao, Jingbo Zhu
Speech Translation Text Encoder Text Data End to End Speech Translation Source Speech Early Slavic Participle Speech Translation Model Robust Encoders

December 1, 2022

CUNI Non-Autoregressive System for the WMT 22 Efficient Translation Shared Task
Jindřich Helcl
Related Task Autoregressive Model Speech Translation Translation Task Connectionist Temporal Classification Non Autoregressive Efficient Translation

November 22, 2022

November 9, 2022

Efficient Speech Translation with Pre-trained Models
Zhaolin Li, Jan Niehues
Training Data Pre Trained Model Speech Translation Translation Quality Speech Translation Model Speech Translation System

November 8, 2022

SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations
Paul-Ambroise Duquenne, Hongyu Gong, Ning Dong, Jingfei Du, Ann Lee, Vedanuj Goswani, Changhan Wang, Juan Pino, Benoît Sagot, Holger Schwenk
Large Corpus Speech Translation Speech to Speech Translation Multilingual Corpus Speech Translation Model

November 5, 2022

LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers
Peidong Wang, Eric Sun, Jian Xue, Yu Wu, Long Zhou, Yashesh Gaur, Shujie Liu, Jinyu Li
Automatic Speech Recognition Speech Recognition Speech Translation View Translation Neural Transducer Multilingual Encoders Monolingual Automatic Speech Recognition

November 4, 2022

A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability
Jian Xue, Peidong Wang, Jinyu Li, Eric Sun
Zero Shot Training Data Speech Translation Data Stream Classification Multilingual Speech Model Non Streaming Automatic Speech Recognition Speech Recognition Corpus

October 31, 2022

Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech Translation
Kun Wei, Long Zhou, Ziqiang Zhang, Liping Chen, Shujie Liu, Lei He, Jinyu Li, Furu Wei
Speech Analysis Speech Translation Speech to Speech Translation Direct Speech to Speech Translation Joint Training Lingual Voice Conversion

October 28, 2022

Efficient Speech Translation with Dynamic Latent Perceivers
Ioannis Tsiamas, Gerard I. Gállego, José A. R. Fonollosa, Marta R. Costa-jussà
Speech Translation Latent Dynamic Text to Audio Model Transformer Baseline Fixed Length Representation

October 27, 2022

Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation
Tsz Kin Lam, Shigehiko Schamoni, Stefan Riezler
Data Augmentation Training Data Automatic Speech Recognition Raw Data Speech Translation View Translation Librispeech Speech Recognition

Speech Translation

Papers

Adapting Offline Speech Translation Models for Streaming with Future-Aware Distillation and Inference

Pre-training for Speech Translation: CTC Meets Optimal Transport

Improved Long-Form Spoken Language Translation with Large Language Models

SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations

WACO: Word-Aligned Contrastive Learning for Speech Translation

BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric

Attention as a Guide for Simultaneous Speech Translation

End-to-End Speech Translation of Arabic to English Broadcast News

M3ST: Mix at Three Levels for Speech Translation

Improving End-to-end Speech Translation by Leveraging Auxiliary Speech and Text Data

CUNI Non-Autoregressive System for the WMT 22 Efficient Translation Shared Task

Average Token Delay: A Latency Metric for Simultaneous Translation

ArzEn-ST: A Three-way Speech Translation Corpus for Code-Switched Egyptian Arabic - English

Efficient Speech Translation with Pre-trained Models

SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations

LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers

A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability

Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech Translation

Efficient Speech Translation with Dynamic Latent Perceivers

Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation