Speech Translation

Speech translation (ST) aims to automatically convert spoken language in one language into written or spoken text in another, bridging communication barriers. Current research heavily utilizes large language models (LLMs) integrated with speech foundation models (SFMs), often employing techniques like chain-of-thought prompting and multimodal approaches to improve accuracy and reduce latency, particularly in simultaneous ST. These advancements are significant for improving cross-lingual communication in various applications, from real-time interpretation to accessibility tools, and are driving innovation in both model architectures and evaluation methodologies.

Papers

May 31, 2023

How Does Pretraining Improve Discourse-Aware Translation?
Zhihong Huang, Longyue Wang, Siyou Liu, Derek F. Wong
Pretrained Language Model Speech Translation Discourse Relation Discourse Parsing Discourse Aware

May 27, 2023

May 26, 2023

May 25, 2023

End-to-End Simultaneous Speech Translation with Differentiable Segmentation
Shaolei Zhang, Yang Feng
Speech Translation End to End Speech Translation Simultaneous Speech Translation Speech Input

May 24, 2023

CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation
Yan Zhou, Qingkai Fang, Yang Feng
Machine Translation Optimal Transport Speech Translation Cross Modal Task

May 23, 2023

Improving speech translation by fusing speech and text
Wenbiao Yin, Zhicheng Liu, Chengqi Zhao, Tao Wang, Jian Tong, Rong Ye
Text Modality Speech Analysis Speech Translation Cross Modal Alignment Modality Gap

May 22, 2023

Improving Metrics for Speech Translation
Claudio Paonessa, Dominik Frefel, Manfred Vogel
Speech Translation Metric Library Translation Metric Swiss German Monotonic Paraphrasing

May 19, 2023

May 16, 2023

May 15, 2023

Understanding and Bridging the Modality Gap for Speech Translation
Qingkai Fang, Yang Feng
Machine Translation Neural Machine Translation Human Understanding Speech Translation Modality Gap

May 12, 2023

Improving Cascaded Unsupervised Speech Translation with Denoising Back-translation
Yu-Kuan Fu, Liang-Hsuan Tseng, Jiatong Shi, Chen-An Li, Tsu-Yuan Hsu, Shinji Watanabe, Hung-yi Lee
Machine Translation Speech Translation Large Relevance Improvement Back Translation Speech Translation Model

May 7, 2023

Interpreting Training Aspects of Deep-Learned Error-Correcting Codes
N. Devroye, A. Mulgund, R. Shekhar, Gy. Turán, M. Žefran, Y. Zhou
Speech Translation Interpretable Embeddings

April 20, 2023

April 13, 2023

Efficient Sequence Transduction by Jointly Predicting Tokens and Durations
Hainan Xu, Fei Jia, Somshubra Majumdar, He Huang, Shinji Watanabe, Boris Ginsburg
Speech Recognition Speech Translation Token Prediction Sequence to Sequence Task RNN Transducer Sequence Transduction Long Duration Token and Duration Transducer

March 22, 2023

Selective Data Augmentation for Robust Speech Translation
Rajul Acharya, Ashish Panda, Sunil Kumar Kopparapu
Machine Translation Speech Translation