Speech Translation

Speech translation (ST) aims to automatically convert spoken language in one language into written or spoken text in another, bridging communication barriers. Current research heavily utilizes large language models (LLMs) integrated with speech foundation models (SFMs), often employing techniques like chain-of-thought prompting and multimodal approaches to improve accuracy and reduce latency, particularly in simultaneous ST. These advancements are significant for improving cross-lingual communication in various applications, from real-time interpretation to accessibility tools, and are driving innovation in both model architectures and evaluation methodologies.

Papers

September 21, 2023

Bridging the Gaps of Both Modality and Language: Synchronous Bilingual CTC for Speech Translation and Speech Recognition
Chen Xu, Xiaoqian Liu, Erfeng He, Yuhao Zhang, Qianqian Dong, Tong Xiao, Jingbo Zhu, Dapeng Man, Wu Yang
Speech Recognition Human Language Speech Translation Different Modality Connectionist Temporal Classification Cross Lingual Learning Speech Recognition Performance

September 20, 2023

September 14, 2023

September 2, 2023

BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing
Chen Wang, Minpeng Liao, Zhongqiang Huang, Jinliang Lu, Junhong Wu, Yuchen Liu, Chengqing Zong, Jiajun Zhang
Large Language Model Speech Recognition Speech Translation Modality Alignment Google Speech Command Behavioral Alignment

August 30, 2023

Speech Wikimedia: A 77 Language Multilingual Speech Dataset
Rafael Mosquera Gómez, Julián Eusse, Juan Ciro, Daniel Galvez, Ryan Hileman, Kurt Bollacker, David Kanter
Data Set Speech Recognition Speech Translation Speech Recording Multilingual Speech Speech Datasets

August 7, 2023

End-to-End Evaluation for Low-Latency Simultaneous Speech Translation
Christian Huber, Tu Anh Dinh, Carlos Mullov, Ngoc Quan Pham, Thai Binh Nguyen, Fabian Retkowski, Stefan Constantin, Enes Yavuz Ugan, Danni Liu, Zhaolin Li, Sai Koneru, Jan Niehues, Alexander Waibel
End to End Speech Translation Low Latency Translation Quality Model Latency

July 17, 2023

Multilingual Speech-to-Speech Translation into Multiple Target Languages
Hongyu Gong, Ning Dong, Sravya Popuri, Vedanuj Goswami, Ann Lee, Juan Pino
Speech Translation Speech to Speech Translation Target Language Multilingual Encoders Speech to Unit

July 7, 2023

Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments
Sara Papi, Peidong Wang, Junkun Chen, Jian Xue, Jinyu Li, Yashesh Gaur
Automatic Speech Recognition Speech Translation Word Alignment Transformer Transducer Serialized Output Training

July 3, 2023

Implicit Memory Transformer for Computationally Efficient Simultaneous Speech Translation
Matthew Raffel, Lizhong Chen
Speech Translation Simultaneous Speech Translation Speech Input Attention Score Memory Bank Memory Transformer

June 20, 2023

HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation
Cihan Xiao, Henry Li Xinyuan, Jinyi Yang, Dongji Gao, Matthew Wiesner, Kevin Duh, Sanjeev Khudanpur
Speech Translation Parallel Corpus Speech Text Transcript Cross Corpus Cantonese Speech

June 14, 2023

Tagged End-to-End Simultaneous Speech Translation Training using Simultaneous Interpretation Data
Yuka Ko, Ryo Fukuda, Yuta Nishikawa, Yasumasa Kano, Katsuhito Sudoh, Satoshi Nakamura
End to End Speech Translation Simultaneous Machine Translation Spoken Utterance Simultaneous Speech Translation Bilingual Data

June 13, 2023

NAVER LABS Europe's Multilingual Speech Translation Systems for the IWSLT 2023 Low-Resource Track
Edward Gow-Smith, Alexandre Berard, Marcely Zanon Boito, Ioan Calapodescu
Fine Tuning Low Resource Speech Translation High Resource Language Parallel English Translation Dataset Multilingual Track

June 8, 2023

KIT's Multilingual Speech Translation System for IWSLT 2023
Danni Liu, Thai Binh Nguyen, Sai Koneru, Enes Yavuz Ugan, Ngoc-Quan Pham, Tuan-Nam Nguyen, Tu Anh Dinh, Carlos Mullov, Alexander Waibel, Jan Niehues
Speech Translation Field Kit Speech Translation Benchmark

June 5, 2023

PolyVoice: Language Models for Speech to Speech Translation
Qianqian Dong, Zhiying Huang, Qiao Tian, Chen Xu, Tom Ko, Yunlong Zhao, Siyuan Feng, Tang Li, Kexin Wang, Xuxin Cheng, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang
Language Model Speech Analysis Speech Synthesis Speech Translation Speech to Speech Translation

June 2, 2023

Speech Translation with Foundation Models and Optimal Transport: UPC at IWSLT23
Ioannis Tsiamas, Gerard I. Gállego, José A. R. Fonollosa, Marta R. Costa-jussà
Foundation Model Optimal Transport Speech Representation Speech Translation Text Encoder Speech Translation System Offline Speech Translation Camouflage Attack

June 1, 2023