Bilingual Data

Bilingual data research focuses on developing and utilizing datasets containing parallel text or speech in two languages to improve multilingual natural language processing (NLP) models. Current research emphasizes creating high-quality bilingual corpora for various domains (e.g., finance, medicine, general knowledge), often employing large language models (LLMs) for tasks like translation, question answering, and safety detection. This work is crucial for advancing multilingual NLP capabilities, particularly for low-resource languages, and has significant implications for cross-cultural communication and information access.

Papers

May 27, 2023

Augmenting Large Language Model Translators via Translation Memories
Yongyu Mu, Abudurexiti Reheman, Zhiquan Cao, Yuchun Fan, Bei Li, Yinqiao Li, Tong Xiao, Chunliang Zhang, Jingbo Zhu
Large Language Model Machine Translation Model Bilingual Data Translation Memory

January 7, 2023

Building a Parallel Corpus and Training Translation Models Between Luganda and English
Richard Kimera, Daniela N. Rim, Heeyoul Choi
Neural Machine Translation Parallel Corpus Bilingual Data Translation Training

December 2, 2022

Improving Simultaneous Machine Translation with Monolingual Data
Hexuan Deng, Liang Ding, Xuebo Liu, Meishan Zhang, Dacheng Tao, Min Zhang
Simultaneous Machine Translation Monolingual Data Bilingual Data

November 18, 2022

Dialogs Re-enacted Across Languages
Nigel G. Ward, Jonathan E. Avila, Emilia Rivas, Divette Marco
Large Corpus Unknown Language Speech to Speech Translation Speech Utterance Bilingual Data

November 13, 2022

Large Language Models Meet Harry Potter: A Bilingual Dataset for Aligning Dialogue Agents with Characters
Nuo Chen, Yan Wang, Haiyun Jiang, Deng Cai, Yuhan Li, Ziyang Chen, Longyue Wang, Jia Li
Character Persona Open Domain Dialogue System Dialogue Agent Bilingual Data Dialogue Summary Dialogue Capability

June 9, 2022

Dict-NMT: Bilingual Dictionary based NMT for Extremely Low Resource Languages
Nalin Kumar, Deepak Kumar, Subhankar Mishra
Neural Machine Translation Low Resource Parallel Corpus Bilingual Data Bilingual Dictionary

March 28, 2022

Large-scale Bilingual Language-Image Contrastive Learning
Byungsoo Ko, Geonmo Gu
Contrastive Learning Large Multimodal Model Multimodal Model Bilingual Data Bilingual Multimodal

March 4, 2022

EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation
Yulin Xu, Zhen Yang, Fandong Meng, JieZhou
Parallel Corpus Language Pair Multilingual Neural Machine Translation Generate Quick Bilingual Data Quality Corpus

November 29, 2021

Joint Modeling of Code-Switched and Monolingual ASR via Conditional Factorization
Brian Yan, Chunlei Zhang, Meng Yu, Shi-Xiong Zhang, Siddharth Dalmia, Dan Berrebbi, Chao Weng, Shinji Watanabe, Dong Yu
Joint Modeling Code Switched Bilingual Data Monolingual Automatic Speech Recognition Bilingual Automatic Speech Recognition