Low Resource Language

Low-resource language (LRL) research focuses on developing natural language processing (NLP) techniques for languages lacking substantial digital resources, aiming to bridge the technological gap between high- and low-resource languages. Current research emphasizes leveraging multilingual pre-trained models like Whisper and adapting them to LRLs through techniques such as weighted cross-entropy, data augmentation (including synthetic data generation), and model optimization methods like pruning and knowledge distillation. This work is crucial for promoting linguistic diversity, enabling access to technology for under-resourced communities, and advancing the broader field of NLP by addressing the challenges posed by data scarcity and linguistic variation.

Papers

December 19, 2023

Building a Llama2-finetuned LLM for Odia Language Utilizing Domain Knowledge Instruction Set
Guneet Singh Kohli, Shantipriya Parida, Sambit Sekhar, Samirit Saha, Nipun B Nair, Parul Agarwal, Sonal Khosla, Kusumlata Patiyal, Debasish Dhal
Low Resource Language LLM Fine Tuning Multilingual LLM

December 17, 2023

Cross-Lingual Learning in Multilingual Scene Text Recognition
Jeonghun Baek, Yusuke Matsui, Kiyoharu Aizawa
Low Resource Language High Resource Language Scene Text Recognition Cross Lingual Learning

December 12, 2023

Content-Localization based Neural Machine Translation for Informal Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic
Fatimah Alzamzami, Abdulmotaleb El Saddik
Neural Machine Translation Low Resource Language High Resource Language Arabic Dialect

December 8, 2023

First Attempt at Building Parallel Corpora for Machine Translation of Northeast India's Very Low-Resource Languages
Atnafu Lambebo Tonja, Melkamu Mersha, Ananya Kalita, Olga Kolesnikova, Jugal Kalita
Machine Translation Low Resource Language Parallel Corpus First Attempt Low Resource Indian Language

December 6, 2023

Evaluating Self-supervised Speech Models on a Taiwanese Hokkien Corpus
Yi-Hui Chou, Kalvin Chang, Meng-Ju Wu, Winston Ou, Alice Wen-Hsin Bi, Carol Yang, Bryan Y. Chen, Rong-Wei Pai, Po-Yen Yeh, Jo-Peng Chiang, Iu-Tshian Phoann, Winnie Chang, Chenxuan Cui, Noel Chen, Jiatong Shi
Self Supervised Learning Low Resource Language Speech Representation Speech Processing Speech Model Chinese Language

December 5, 2023

Impact of Tokenization on LLaMa Russian Adaptation
Mikhail Tikhomirov, Daniil Chernyshev
Large Language Model Global Impact Low Resource Language LLaMa LlamaCare Language Adaptation

November 21, 2023

Multilingual Word Embeddings for Low-Resource Languages using Anchors and a Chain of Related Languages
Viktor Hangya, Silvia Severini, Radoslav Ralev, Alexander Fraser, Hinrich Schütze
Low Resource Language Cross Lingual Side Chain Different Language Bilingual Lexicon Induction Visual Information Anchor Multilingual Word Embeddings

November 20, 2023

Leveraging Closed-Access Multilingual Embedding for Automatic Sentence Alignment in Low Resource Languages
Idris Abdulmumin, Auwal Abubakar Khalid, Shamsuddeen Hassan Muhammad, Ibrahim Said Ahmad, Lukman Jibril Aliyu, Babangida Sani, Bala Mairiga Abduljalil, Sani Ahmad Hassan
Machine Translation Low Resource Language Translation Model Parallel Data Sentence Alignment

November 15, 2023

November 14, 2023

MC$^2$: Towards Transparent and Culturally-Aware NLP for Minority Languages in China
Chen Zhang, Mingxu Tao, Quzhe Huang, Jiuheng Lin, Zhibin Chen, Yansong Feng
Low Resource Language Multilingual Corpus Rural China Specific Corpus

November 13, 2023

Investigating Multi-Pivot Ensembling with Massively Multilingual Machine Translation Models
Alireza Mohammadshahi, Jannis Vamvas, Rico Sennrich
Low Resource Language Multilingual Machine Translation Model Ensembling Human Translation Low Resource Translation Pivot Language

November 9, 2023

Efficiently Adapting Pretrained Language Models To New Languages
Zoltan Csaki, Pian Pawakapan, Urmish Thakker, Qiantong Xu
Low Resource Language Pretrained Language Model High Resource Language Recent Large Language Model New Language Efficient Tokenization Lingual Transfer Capability

November 6, 2023

Mini Minds: Exploring Bebeshka and Zlata Baby Models
Irina Proskurina, Guillaume Metzler, Julien Velcin
Language Model Low Resource Language Human Model Language Understanding Task Human Language Acquisition Mechanical Mind

November 3, 2023

FinGPT: Large Generative Models for a Small Language
Risto Luukkonen, Ville Komulainen, Jouni Luoma, Anni Eskelinen, Jenna Kanerva, Hanna-Mari Kupari, Filip Ginter, Veronika Laippala, Niklas Muennighoff, Aleksandra Piktus, Thomas Wang, Nouamane Tazi, Teven Le Scao, Thomas Wolf, Osma Suominen, Samuli Sairanen, Mikko Merioksa, Jyrki Heinonen, Aija Vahtola, Samuel Antao, Sampo Pyysalo
Large Language Model Low Resource Language Monolingual Model Large Generative Model Open Science Open Access Multilingual

November 2, 2023

Replicable Benchmarking of Neural Machine Translation (NMT) on Low-Resource Local Languages in Indonesia
Lucky Susanto, Ryandito Diandaru, Adila Krisnadhi, Ayu Purwarianti, Derry Wijaya
Neural Machine Translation Low Resource Language Low Resource

November 1, 2023

Syntactic Inductive Bias in Transformer Language Models: Especially Helpful for Low-Resource Languages?
Luke Gessler, Nathan Schneider
Low Resource Language Transformer Based Language Model Transformer Language Model High Resource Language Syntactic Inductive Bias

Low Resource Language

Papers

Building a Llama2-finetuned LLM for Odia Language Utilizing Domain Knowledge Instruction Set

Cross-Lingual Learning in Multilingual Scene Text Recognition

Content-Localization based Neural Machine Translation for Informal Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic

First Attempt at Building Parallel Corpora for Machine Translation of Northeast India's Very Low-Resource Languages

Evaluating Self-supervised Speech Models on a Taiwanese Hokkien Corpus

Impact of Tokenization on LLaMa Russian Adaptation

Multilingual Word Embeddings for Low-Resource Languages using Anchors and a Chain of Related Languages

Leveraging Closed-Access Multilingual Embedding for Automatic Sentence Alignment in Low Resource Languages

Detection of Offensive and Threatening Online Content in a Low Resource Language

Sinhala-English Word Embedding Alignment: Introducing Datasets and Benchmark for a Low Resource Language

TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes

To Translate or Not to Translate: A Systematic Investigation of Translation-Based Cross-Lingual Transfer to Low-Resource Languages

When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages

MC$^2$: Towards Transparent and Culturally-Aware NLP for Minority Languages in China

Investigating Multi-Pivot Ensembling with Massively Multilingual Machine Translation Models

Efficiently Adapting Pretrained Language Models To New Languages

Mini Minds: Exploring Bebeshka and Zlata Baby Models

FinGPT: Large Generative Models for a Small Language

Replicable Benchmarking of Neural Machine Translation (NMT) on Low-Resource Local Languages in Indonesia

Syntactic Inductive Bias in Transformer Language Models: Especially Helpful for Low-Resource Languages?