Low Resource Language

Low-resource language (LRL) research focuses on developing natural language processing (NLP) techniques for languages lacking substantial digital resources, aiming to bridge the technological gap between high- and low-resource languages. Current research emphasizes leveraging multilingual pre-trained models like Whisper and adapting them to LRLs through techniques such as weighted cross-entropy, data augmentation (including synthetic data generation), and model optimization methods like pruning and knowledge distillation. This work is crucial for promoting linguistic diversity, enabling access to technology for under-resourced communities, and advancing the broader field of NLP by addressing the challenges posed by data scarcity and linguistic variation.

Papers

April 19, 2023

A Survey of Corpora for Germanic Low-Resource Languages and Dialects
Verena Blaschke, Hinrich Schütze, Barbara Plank
Timely Survey Large Corpus Low Resource Language Regional Dialect Linguistic Resource

April 18, 2023

Transfer to a Low-Resource Language via Close Relatives: The Case Study on Faroese
Vésteinn Snæbjarnarson, Annika Simonsen, Goran Glavaš, Ivan Vulić
Natural Language Processing Case Study Low Resource Language Cross Lingual Transfer Formality Transfer Multilingual Language Model High Resource Language Zero Shot Cross Lingual Transfer

April 16, 2023

Neural Machine Translation For Low Resource Languages
Vakul Goyle, Parvathy Krishnaswamy, Kannan Girija Ravikumar, Utsa Chattopadhyay, Kartikay Goyle
Transfer Learning Neural Machine Translation Low Resource Language Multilingual Neural Machine Translation Neural Machine Translation Model

April 2, 2023

Semi-supervised Neural Machine Translation with Consistency Regularization for Low-Resource Languages
Viet H. Pham, Thang M. Pham, Giang Nguyen, Long Nguyen, Dien Dinh
Machine Translation Low Resource Language Cross Entropy Loss Consistency Regularization Sentence Pair Unsupervised Training

March 28, 2023

Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low Resource Languages
Seongyeon Park, Myungseo Song, Bohyung Kim, Tae-Hyun Oh
Low Resource Language Text to Speech Speech Data Unsupervised Pre Training

March 22, 2023

XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages
Dhaval Taunk, Shivprasad Sagare, Anupam Patil, Shivansh Subramanian, Manish Gupta, Vasudeva Varma
Low Resource Language Cross Lingual Cross Lingual Summarization Monolingual Summarization Text Generator

March 21, 2023

The African Stopwords project: curating stopwords for African languages
Chris Emezue, Hellina Nigatu, Cynthia Thinwa, Helper Zhou, Shamsuddeen Muhammad, Lerato Louis, Idris Abdulmumin, Samuel Oyerinde, Benjamin Ajibade, Olanrewaju Samuel, Oviawe Joshua, Emeka Onwuegbuzia, Handel Emezue, Ifeoluwatayo A. Ige, Atnafu Lambebo Tonja, Chiamaka Chukwuneke, Bonaventure F. P. Dossou, Naome A. Etori, Mbonu Chinedu Emmanuel, Oreen Yousuf, Kaosarat Aina, Davis David
Natural Language Processing Low Resource Language African Language

March 2, 2023

Letz Translate: Low-Resource Machine Translation for Luxembourgish
Yewei Song, Saad Ezzini, Jacques Klein, Tegawende Bissyande, Clément Lefebvre, Anne Goujon
Knowledge Distillation Pre Trained Language Model Low Resource Language Multilingual Model Multilingual Machine Translation

March 1, 2023

A Persian Benchmark for Joint Intent Detection and Slot Filling
Masoud Akbari, Amir Hossein Karimi, Tayyebeh Saeedi, Zeinab Saeidi, Kiana Ghezelbash, Fatemeh Shamsezat, Mohammad Akbari, Ali Mohades
Language Understanding Low Resource Language Intent Detection Natural Language Understanding Slot Filling Persian Dataset Joint Intent Detection

February 15, 2023

Meeting the Needs of Low-Resource Languages: The Value of Automatic Alignments via Pretrained Models
Abteen Ebrahimi, Arya D. McCarthy, Arturo Oncevay, Luis Chiruzzo, John E. Ortega, Gustavo A. Giménez-Lugo, Rolando Coto-Solano, Katharina Kann
Entity Recognition Low Resource Language Multilingual Model Community Need Alignment Performance Meeting Minute Word Alignment Automatic Alignment

February 7, 2023

Learning Translation Quality Evaluation on Low Resource Languages from Large Language Models
Amirkeivan Mohtashami, Mauro Verzetti, Paul K. Rubenstein
Synthetic Data Low Resource Language Machine Translation System Supervised Metric

February 1, 2023

Visually Grounded Keyword Detection and Localisation for Low-Resource Languages
Kayode Kolawole Olaleye
Low Resource Language Cross Lingual Model Audio Caption Keyword Localisation Keyword Detection

January 29, 2023

Improving Cross-lingual Information Retrieval on Low-Resource Languages via Optimal Transport Distillation
Zhiqi Huang, Puxuan Yu, James Allan
Low Resource Language Cross Lingual Retrieval Cross Lingual Information Retrieval Optimal Transport Distillation Monolingual Retrieval

January 11, 2023

Modelling low-resource accents without accent-specific TTS frontend
Georgi Tinchev, Marta Czarnowska, Kamil Deja, Kayoko Yanagisawa, Marius Cotescu
Low Resource Language Voice Conversion Target Accent

December 19, 2022

Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages
Ercong Nie, Sheng Liang, Helmut Schmid, Hinrich Schütze
Low Resource Language Cross Lingual Transfer Cross Lingual Multilingual Pre Trained Language Model Cross Lingual Retrieval Multilingual Text

December 15, 2022

Fixing MoE Over-Fitting on Low-Resource Languages in Multilingual Machine Translation
Maha Elbayad, Anna Sun, Shruti Bhosale
Low Resource Language Mixture of Expert Multilingual Machine Translation Translation Benchmark Low Resource Language Pair Effective Regularization

December 7, 2022

JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset
Ruth-Ann Armstrong, John Hewitt, Christopher Manning
Natural Language Processing Low Resource Language Natural Language Inference Cross Lingual Transfer Low Resourced Language

November 29, 2022

Learnings from Technological Interventions in a Low Resource Language: Enhancing Information Access in Gondi
Devansh Mehta, Harshita Diddee, Ananya Saxena, Anurag Shukla, Sebastin Santy, Ramaravind Kommiya Mothilal, Brij Mohan Lal Srivastava, Alok Sharma, Vishnu Prasad, Venkanna U, Kalika Bali
Low Resource Language Information Access Hindi English Code Linguistic Resource Digital Intervention

November 4, 2022

Intriguing Properties of Compression on Multilingual Models
Kelechi Ogueji, Orevaoghene Ahia, Gbemileke Onilude, Sebastian Gehrmann, Sara Hooker, Julia Kreutzer
Entity Recognition Low Resource Language Multilingual Model Linear Compression Multilingual Pre Trained Language Model Dense Model Intriguing Property

November 2, 2022

Dialect-robust Evaluation of Generated Text
Jiao Sun, Thibault Sellam, Elizabeth Clark, Tu Vu, Timothy Dozat, Dan Garrette, Aditya Siddhant, Jacob Eisenstein, Sebastian Gehrmann
Low Resource Language Evaluation Metric Generated Text NLG Metric