Multilingual Corpus

Multilingual corpora, collections of text and speech data spanning multiple languages, are crucial for developing language technologies that work across linguistic boundaries. Current research focuses on creating and improving these corpora, addressing issues like data imbalance, bias detection, and efficient cross-lingual transfer learning using techniques such as deep learning models (e.g., BERT, mT5) and contrastive learning. These advancements are vital for bridging the language gap in natural language processing, enabling applications like multilingual machine translation, speech recognition, and information retrieval to serve a wider global population and fostering research into under-resourced languages.

Papers

March 15, 2022

Does Corpus Quality Really Matter for Low-Resource Languages?
Mikel Artetxe, Itziar Aldabe, Rodrigo Agerri, Olatz Perez-de-Viñaspre, Aitor Soroa
Low Resource Language Downstream NLP Task Multilingual Corpus NLU Model

February 14, 2022

Out of Thin Air: Is Zero-Shot Cross-Lingual Keyword Detection Better Than Unsupervised?
Boshko Koloski, Senja Pollak, Blaž Škrlj, Matej Martinc
Unsupervised Setting Multilingual Language Model Multilingual Corpus Keyword Extraction Thin Air Keyword Localisation

January 17, 2022

Towards a Cleaner Document-Oriented Multilingual Crawled Corpus
Julien Abadji, Pedro Ortiz Suarez, Laurent Romary, Benoît Sagot
Large Language Model Natural Language Processing Large Corpus Multilingual Corpus

January 14, 2022

Multilingual Open Text Release 1: Public Domain News in 44 Languages
Chester Palen-Michel, June Kim, Constantine Lignos
Natural Language Processing Large Corpus Unknown Language Multilingual Corpus Online Newspaper Online Text

Multilingual Corpus

Papers

Does Corpus Quality Really Matter for Low-Resource Languages?

Out of Thin Air: Is Zero-Shot Cross-Lingual Keyword Detection Better Than Unsupervised?

Towards a Cleaner Document-Oriented Multilingual Crawled Corpus

Multilingual Open Text Release 1: Public Domain News in 44 Languages