Multilingual Corpus

Multilingual corpora, collections of text and speech data spanning multiple languages, are crucial for developing language technologies that work across linguistic boundaries. Current research focuses on creating and improving these corpora, addressing issues like data imbalance, bias detection, and efficient cross-lingual transfer learning using techniques such as deep learning models (e.g., BERT, mT5) and contrastive learning. These advancements are vital for bridging the language gap in natural language processing, enabling applications like multilingual machine translation, speech recognition, and information retrieval to serve a wider global population and fostering research into under-resourced languages.

Papers

August 17, 2023

mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning
Ying Mo, Jian Yang, Jiahao Liu, Qifan Wang, Ruoyu Chen, Jingang Wang, Zhoujun Li
Entity Recognition Named Entity Recognition Cross Lingual Token Level Multilingual Corpus Multi View Contrastive Learning

August 6, 2023

Spanish Pre-trained BERT Model and Evaluation Data
José Cañete, Gabriel Chaperon, Rodrigo Fuentes, Jou-Hui Ho, Hojin Kang, Jorge Pérez
Language Model Multilingual Corpus Pre Trained BERT Spanish Language Model Spanish Dictionary Evaluation Data

June 14, 2023

Does mBERT understand Romansh? Evaluating word embeddings using word alignment
Eyal Liron Dolev
Word Embeddings Multilingual Corpus Lingual Alignment Word Alignment

June 13, 2023

Massively Multilingual Corpus of Sentiment Datasets and Multi-faceted Sentiment Classification Benchmark
Łukasz Augustyniak, Szymon Woźniak, Marcin Gruza, Piotr Gramacki, Krzysztof Rajda, Mikołaj Morzy, Tomasz Kajdanowicz
Multilingual Model Multilingual Corpus Sentiment Analysis Datasets Multilingual Sentiment

May 25, 2023

Towards Higher Pareto Frontier in Multilingual Machine Translation
Yichong Huang, Xiaocheng Feng, Xinwei Geng, Baohang Li, Bing Qin
Knowledge Distillation Multilingual Machine Translation Multilingual Neural Machine Translation Multilingual Corpus Pareto Frontier Pareto Set

May 20, 2023

Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages
Ayyoob Imani, Peiqin Lin, Amir Hossein Kargaran, Silvia Severini, Masoud Jalili Sabet, Nora Kassner, Chunlan Ma, Helmut Schmid, André F. T. Martins, François Yvon, Hinrich Schütze
Language Model Unknown Language NLP Community NLP Research Multilingual Corpus

April 18, 2023

UniMax: Fairer and more Effective Language Sampling for Large-Scale Multilingual Pretraining
Hyung Won Chung, Noah Constant, Xavier Garcia, Adam Roberts, Yi Tay, Sharan Narang, Orhan Firat
Multilingual Large Language Model Multilingual Benchmark Multilingual Corpus Multilingual Pretraining Language Sampling

March 7, 2023

Preparing the Vuk'uzenzele and ZA-gov-multilingual South African multilingual corpora
Richard Lastrucci, Isheanesu Dzingirai, Jenalea Rajab, Andani Madodonga, Matimba Shingange, Daniel Njini, Vukosi Marivate
Large Corpus Neural Machine Translation Parallel Corpus Multilingual Pre Trained Language Model Multilingual Corpus Multilingual Text

February 27, 2023

The ROOTS Search Tool: Data Transparency for LLMs
Aleksandra Piktus, Christopher Akiki, Paulo Villegas, Hugo Laurençon, Gérard Dupont, Alexandra Sasha Luccioni, Yacine Jernite, Anna Rogers
Language Model Medical LLM Multilingual Corpus Corpus Creation Data Transparency

December 19, 2022

LR-Sum: Summarization for Less-Resourced Languages
Chester Palen-Michel, Constantine Lignos
Structured Summary Multilingual Corpus Human Written Summary Automatic Summarization Low Resourced Language

December 14, 2022

Building Multilingual Corpora for a Complex Named Entity Recognition and Classification Hierarchy using Wikipedia and DBpedia
Diego Alves, Gaurish Thakkar, Gabriel Amaral, Tin Kuculo, Marko Tadić
MAESTRO Dataset Parallel Corpus Wikipedia Article Multilingual Corpus Hierarchical Classification Named Entity

November 15, 2022

A Comparative Study of Question Answering over Knowledge Bases
Khiem Vinh Tran, Hao Phu Phan, Khang Nguyen Duc Quach, Ngan Luu-Thuy Nguyen, Jun Jo, Thanh Tam Nguyen
Comparative Study Yes No Question Knowledge Base Multilingual Corpus Question Classification KBQA Model

November 8, 2022

SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations
Paul-Ambroise Duquenne, Hongyu Gong, Ning Dong, Jingfei Du, Ann Lee, Vedanuj Goswani, Changhan Wang, Juan Pino, Benoît Sagot, Holger Schwenk
Large Corpus Speech Translation Speech to Speech Translation Multilingual Corpus Speech Translation Model

June 28, 2022

Creation and Analysis of an International Corpus of Privacy Laws
Sonu Gupta, Ellen Poplavska, Nora O'Toole, Siddhant Arora, Thomas Norton, Norman Sadeh, Shomir Wilson
General Analysis Visual Creation Multilingual Corpus Privacy Legislation

June 14, 2022

FreeTransfer-X: Safe and Label-Free Cross-Lingual Transfer from Off-the-Shelf Models
Yinpeng Guo, Liangyou Li, Xin Jiang, Qun Liu
Knowledge Transfer Cross Lingual Transfer Multilingual Pre Trained Language Model Multilingual Corpus Shelf Model

May 23, 2022

May 17, 2022

OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource Language Pair for Low-Resource Sentence Retrieval
Tong Niu, Kazuma Hashimoto, Yingbo Zhou, Caiming Xiong
Zero Shot Machine Translation Cross Lingual Transfer Multilingual Corpus Low Resource Language Pair Sentence Alignment Resource Language Pair

March 28, 2022

Multilingual Simultaneous Speech Translation
Shashank Subramanya, Jan Niehues
Multilingual Model Speech Translation Multilingual Corpus Simultaneous Speech Translation Offline Speech Translation

March 18, 2022

CaMEL: Case Marker Extraction without Labels
Leonie Weissweiler, Valentin Hofmann, Masoud Jalili Sabet, Hinrich Schütze
Fine Grained Low Resource Language Label Information Multilingual Corpus Electric SHEEP Morphological Operator Uncertain Case Identifier