Low Resource Language

Low-resource language (LRL) research focuses on developing natural language processing (NLP) techniques for languages lacking substantial digital resources, aiming to bridge the technological gap between high- and low-resource languages. Current research emphasizes leveraging multilingual pre-trained models like Whisper and adapting them to LRLs through techniques such as weighted cross-entropy, data augmentation (including synthetic data generation), and model optimization methods like pruning and knowledge distillation. This work is crucial for promoting linguistic diversity, enabling access to technology for under-resourced communities, and advancing the broader field of NLP by addressing the challenges posed by data scarcity and linguistic variation.

Papers

April 2, 2024

LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages
Nataliia Kholodna, Sahib Julka, Mohammad Khodadadi, Muhammed Nurullah Gumus, Michael Granitzer
Medical LLM Active Learning Natural Language Low Resource Language LLM Annotation

March 29, 2024

Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets
Shadi Manafi, Nikhil Krishnaswamy
Entity Recognition Low Resource Language Cross Lingual Transfer Multilingual Language Model High Resource Language Adversarial Datasets

March 28, 2024

A Tulu Resource for Machine Translation
Manu Narayanan, Noëmi Aepli
Machine Translation Low Resource Language Multilingual Machine Translation New Resource Machine Translation Model Machine Translation System

March 26, 2024

Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili
Jesse Atuhurra, Hiroyuki Shindo, Hidetaka Kamigaito, Taro Watanabe
Language Model Case Study Low Resource Language Word Embeddings African Language Syllable Tokenization

March 20, 2024

Clinical information extraction for Low-resource languages with Few-shot learning using Pre-trained language models and Prompting
Phillip Richter-Pechanski, Philipp Wiesenbach, Dominic M. Schwab, Christina Kiriakou, Nicolas Geis, Christoph Dieterich, Anette Frank
Language Model Pre Trained Language Model Inherent Interpretability Shot Learning Low Resource Language Domain Adaptive Automatic Extraction Clinical Information Extraction

March 16, 2024

BEnQA: A Question Answering and Reasoning Benchmark for Bengali and English
Sheikh Shafayat, H M Quamran Hasan, Minhajur Rahman Chowdhury Mahim, Rifki Afina Putri, James Thorne, Alice Oh
Large Language Model Question Answering Low Resource Language Reasoning Benchmark Bangla Text Chain of Thought Prompting Reasoning Question

March 15, 2024

Using Contextual Information for Sentence-level Morpheme Segmentation
Prabin Bhandari, Abhishek Paudel
Low Resource Language Multilingual Model Contextual Information Word Segmentation Morpheme Segmentation

March 11, 2024

Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages
Michael Andersland
Multimodal Large Language Model Low Resource Language Multimodal LLM Machine Translation Model LLaMA Model

March 9, 2024

Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in Low-Resource Languages
Christopher Toukmaji
Large Language Model Fine Tuning Context Learning Low Resource Language Cross Lingual Transfer Large Pre Trained Language Model Shot Prompting

March 8, 2024

Cost-Performance Optimization for Processing Low-Resource Language Tasks Using Commercial LLMs
Arijit Nag, Animesh Mukherjee, Niloy Ganguly, Soumen Chakrabarti
Low Resource Language High Resource Language

March 5, 2024

AI Literacy in Low-Resource Languages:Insights from creating AI in Yoruba videos
Wuraola Oyewusi
Artificial Intelligence Low Resource Language DCU Insight AQ Generated Video AI Literacy AI Revolution

March 4, 2024

March 3, 2024

Enhancing Neural Machine Translation of Low-Resource Languages: Corpus Development, Human Evaluation and Explainable AI Architectures
Séamus Lankford
Machine Translation Neural Machine Translation Low Resource Language Human Evaluation Neural Machine Translation Model Translation Performance Low Resource Language Pair Corpus Creation Resource Language Pair

February 29, 2024

Teaching Large Language Models an Unseen Language on the Fly
Chen Zhang, Xiao Liu, Jiuheng Lin, Yansong Feng
Large Language Model Context Learning Low Resource Language Unseen Language

February 28, 2024

Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions
Kexun Zhang, Yee Man Choi, Zhenqiao Song, Taiqi He, William Yang Wang, Lei Li
Large Language Model Low Resource Language Unseen Language Historical Linguistics Endangered Language

February 27, 2024

February 22, 2024

Transferring BERT Capabilities from High-Resource to Low-Resource Languages Using Vocabulary Matching
Piotr Rybak
Language Model Low Resource Language BERT Model BERT Based Language Understanding Model

February 19, 2024

Where It Really Matters: Few-Shot Environmental Conservation Media Monitoring for Low-Resource Languages
Sameer Jain, Sedrick Scott Keh, Shova Chettri, Karun Dewan, Pablo Izquierdo, Johanna Prussman, Pooja Shreshtha, Cesar Suarez, Zheyuan Ryan Shi, Lei Li, Fei Fang
Low Resource Language Shot in Context Learning Environmental Monitoring Environmental Conservation

Low Resource Language

Papers

LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages

Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets

A Tulu Resource for Machine Translation

Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili

Clinical information extraction for Low-resource languages with Few-shot learning using Pre-trained language models and Prompting

BEnQA: A Question Answering and Reasoning Benchmark for Bengali and English

Using Contextual Information for Sentence-level Morpheme Segmentation

Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages

Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in Low-Resource Languages

Cost-Performance Optimization for Processing Low-Resource Language Tasks Using Commercial LLMs

AI Literacy in Low-Resource Languages:Insights from creating AI in Yoruba videos

adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds

Transformers for Low-Resource Languages:Is F\'eidir Linn!

Enhancing Neural Machine Translation of Low-Resource Languages: Corpus Development, Human Evaluation and Explainable AI Architectures

Teaching Large Language Models an Unseen Language on the Fly

Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions

BlendSQL: A Scalable Dialect for Unifying Hybrid Question Answering in Relational Algebra

Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese

Transferring BERT Capabilities from High-Resource to Low-Resource Languages Using Vocabulary Matching

Where It Really Matters: Few-Shot Environmental Conservation Media Monitoring for Low-Resource Languages