Low Resource Language

Low-resource language (LRL) research focuses on developing natural language processing (NLP) techniques for languages lacking substantial digital resources, aiming to bridge the technological gap between high- and low-resource languages. Current research emphasizes leveraging multilingual pre-trained models like Whisper and adapting them to LRLs through techniques such as weighted cross-entropy, data augmentation (including synthetic data generation), and model optimization methods like pruning and knowledge distillation. This work is crucial for promoting linguistic diversity, enabling access to technology for under-resourced communities, and advancing the broader field of NLP by addressing the challenges posed by data scarcity and linguistic variation.

Papers

August 25, 2023

Ngambay-French Neural Machine Translation (sba-Fr)
Sakayo Toadoum Sari, Angela Fan, Lema Logamou Seknewna
Neural Machine Translation Low Resource Language Translation Task African Language Neural Machine Translation Model

August 21, 2023

Zero- and Few-Shot Prompting with LLMs: A Comparative Study with Fine-tuned Models for Bangla Sentiment Analysis
Md. Arid Hasan, Shudipta Das, Afiyat Anjum, Firoj Alam, Anika Anjum, Avijit Sarker, Sheak Rashed Haider Noori
Large Language Model Language Model Sentiment Analysis Comparative Study Low Resource Language Fine Tuned Model Better Zero Monolingual Language Model

August 19, 2023

August 18, 2023

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge
Minsu Kim, Jeong Hun Yeo, Jeongsoo Choi, Yong Man Ro
LeArning Abstract Low Resource Language Language Specific Decoder Only LLM Lip Reading

August 10, 2023

A Novel Self-training Approach for Low-resource Speech Recognition
Satwinder Singh, Feng Hou, Ruili Wang
Automatic Speech Recognition Low Resource Language Self Training Speech Recognition System Unlabeled Speech Low Resource Speech Recognition

July 25, 2023

CQNV: A combination of coarsely quantized bitstream and neural vocoder for low rate speech coding
Youqiang Zheng, Li Xiao, Weiping Tu, Yuhong Yang, Xinmeng Xu
Low Resource Language Neural Vocoder New Combination Accurate Decoding Post Compression Bitstream Speech Codec Parametric Encoding Parameter Quantization

July 16, 2023

July 14, 2023

Towards dialect-inclusive recognition in a low-resource language: are balanced corpora the answer?
Liam Lonergan, Mengjie Qian, Neasa Ní Chiaráin, Christer Gobl, Ailbhe Ní Chasaide
Large Corpus Low Resource Language Top Two Answer ASR System Dialect Datasets Language Level Performance Disparity Multi Dialect Speech Recognition

July 3, 2023

Multilingual Contextual Adapters To Improve Custom Word Recognition In Low-resource Languages
Devang Kulshreshtha, Saket Dingliwal, Brady Houston, Sravan Bodapati
Training Data Automatic Speech Recognition Low Resource Language Connectionist Temporal Classification Contextual Adapter Word Recognition

June 30, 2023

Towards Improving the Performance of Pre-Trained Speech Models for Low-Resource Languages Through Lateral Inhibition
Andrei-Marius Avram, Răzvan-Alexandru Smădu, Vasile Păiş, Dumitru-Clementin Cercel, Radu Ion, Dan Tufiş
System Performance Low Resource Language Bidirectional Encoder Representation Pre Trained Speech Model Romanian Natural Language Lateral Inhibition

June 25, 2023

Weakly Supervised Scene Text Generation for Low-resource Languages
Yangchen Xie, Xinyuan Chen, Hongjian Zhan, Palaiahankote Shivakum, Bing Yin, Cong Liu, Yue Lu
Low Resource Language Scene Text Recognition Scene Text Image Scene Text Generation

June 22, 2023

xSIM++: An Improved Proxy to Bitext Mining Performance for Low-Resource Languages
Mingda Chen, Kevin Heffernan, Onur Çelebi, Alex Mourachko, Holger Schwenk
Low Resource Language Bitext Mining

June 21, 2023

Strategies in Transfer Learning for Low-Resource Speech Synthesis: Phone Mapping, Features Input, and Source Language Selection
Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers
Automatic Speech Recognition Transfer Learning Low Resource Language Input Feature Low Resource Text to Speech Mobile Mapping

June 20, 2023

Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts
Xuan-Phi Nguyen, Sharifah Mahani Aljunied, Shafiq Joty, Lidong Bing
Large Language Model Zero Shot Low Resource Language Linguistic Capability Represented Language Translation Prompt

June 16, 2023

CML-TTS A Multilingual Dataset for Speech Synthesis in Low-Resource Languages
Frederico S. Oliveira, Edresson Casanova, Arnaldo Cândido Júnior, Anderson S. Soares, Arlindo R. Galvão Filho
Low Resource Language Text to Speech Speech Synthesis Multilingual Dataset Librispeech Speech Recognition Controllable Text to Speech

June 12, 2023

Izindaba-Tindzaba: Machine learning news categorisation for Long and Short Text for isiZulu and Siswati
Andani Madodonga, Vukosi Marivate, Matthew Adendorff
New Machine Low Resource Language African Language Short Text News Dataset News Classification Different Word Embeddings

June 8, 2023

Improving Vietnamese Legal Question--Answering System based on Automatic Data Enrichment
Thi-Hai-Yen Vuong, Ha-Thanh Nguyen, Quang-Huy Nguyen, Le-Minh Nguyen, Xuan-Hieu Phan
Language Model Pre Trained Language Model Low Resource Language Legal Question Answering Data Enrichment

June 1, 2023

The Effects of Input Type and Pronunciation Dictionary Usage in Transfer Learning for Low-Resource Text-to-Speech
Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers
Automatic Speech Recognition Transfer Learning Mixed Effect Low Resource Language Text to Speech Multilingual Model Cross Lingual Transfer Low Resource Text to Speech Pronunciation Dictionary

Low Resource Language

Papers

Ngambay-French Neural Machine Translation (sba-Fr)

Zero- and Few-Shot Prompting with LLMs: A Comparative Study with Fine-tuned Models for Bangla Sentiment Analysis

Knowledge Transfer from High-Resource to Low-Resource Programming Languages for Code LLMs

Breaking Language Barriers: A Question Answering Dataset for Hindi and Marathi

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge

A Novel Self-training Approach for Low-resource Speech Recognition

CQNV: A combination of coarsely quantized bitstream and neural vocoder for low rate speech coding

Model Adaptation for ASR in low-resource Indian Languages

Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages

Towards dialect-inclusive recognition in a low-resource language: are balanced corpora the answer?

Multilingual Contextual Adapters To Improve Custom Word Recognition In Low-resource Languages

Towards Improving the Performance of Pre-Trained Speech Models for Low-Resource Languages Through Lateral Inhibition

Weakly Supervised Scene Text Generation for Low-resource Languages

xSIM++: An Improved Proxy to Bitext Mining Performance for Low-Resource Languages

Strategies in Transfer Learning for Low-Resource Speech Synthesis: Phone Mapping, Features Input, and Source Language Selection

Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts

CML-TTS A Multilingual Dataset for Speech Synthesis in Low-Resource Languages

Izindaba-Tindzaba: Machine learning news categorisation for Long and Short Text for isiZulu and Siswati

Improving Vietnamese Legal Question--Answering System based on Automatic Data Enrichment

The Effects of Input Type and Pronunciation Dictionary Usage in Transfer Learning for Low-Resource Text-to-Speech