Low Resource Language

March 18, 2022

CaMEL: Case Marker Extraction without Labels
Leonie Weissweiler, Valentin Hofmann, Masoud Jalili Sabet, Hinrich Schütze
Fine Grained Low Resource Language Label Information Multilingual Corpus Electric SHEEP Morphological Operator Uncertain Case Identifier

March 16, 2022

Morphological Processing of Low-Resource Languages: Where We Are and What's Next
Adam Wiemerslage, Miikka Silfverberg, Changbing Yang, Arya D. McCarthy, Garrett Nicolai, Eliana Colunga, Katharina Kann
Low Resource Language Morphological Feature Morphological Dictionary Morphological Operator Morphological Analyzer
Pre-Trained Multilingual Sequence-to-Sequence Models: A Hope for Low-Resource Language Translation?
En-Shiun Annie Lee, Sarubi Thillainathan, Shravan Nayak, Surangika Ranathunga, David Ifeoluwa Adelani, Ruisi Su, Arya D. McCarthy
Pre Training Low Resource Language Low Resource Machine Translation System Different Language Hope Speech Multilingual Sequence to Sequence
Zero-Shot Dependency Parsing with Worst-Case Aware Automated Curriculum Learning
Miryam de Lhoneux, Sheng Zhang, Anders Søgaard
Language Model Multi Task Learning Low Resource Language Cross Lingual Transfer Curriculum Learning Syntactic Parsing

March 15, 2022

March 3, 2022

Overlap-based Vocabulary Generation Improves Cross-lingual Transfer Among Related Languages
Vaidehi Patil, Partha Talukdar, Sunita Sarawagi
Low Resource Language Cross Lingual Transfer Multilingual Language Model Zero Shot Cross Lingual Transfer Different Language Monolingual Corpus Low Resourced Language Tongue Twister

February 27, 2022

OCR Improves Machine Translation for Low-Resource Languages
Oana Ignat, Jean Maillard, Vishrav Chaudhary, Francisco Guzmán
Machine Translation Low Resource Language Optical Character Recognition Machine Translation Model Gallery Style OCR Machine Translation Performance

February 25, 2022

APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets
Kichang Yang, Wonjun Jang, Won Ik Cho
Language Model General Analysis Low Resource Language Hate Speech Hate Speech Detection Training Corpus Offensive Content

February 1, 2022

XAlign: Cross-lingual Fact-to-Text Alignment and Generation for Low-Resource Languages
Tushar Abhishek, Shivprasad Sagare, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta, Vasudeva Varma
Faithful Generation Low Resource Language Lingual Alignment Factual Text Cross Lingual Fact

January 30, 2022

Part of Speech Tagging (POST) of a Low-resource Language using another Language (Developing a POS-Tagged Lexicon for Kurdish (Sorani) using a Tagged Persian (Farsi) Corpus)
Hossein Hassani
Large Corpus Low Resource Language French Dictionary Source Speech Po Tagger

January 27, 2022

Systematic Investigation of Strategies Tailored for Low-Resource Settings for Low-Resource Dependency Parsing
Jivnesh Sandhan, Laxmidhar Behera, Pawan Goyal
Low Resource Language Low Resource General Strategy Dependency Parsing Systematic Study Low Resource Scenario Universal Dependency

January 5, 2022

Data-driven Model Generalizability in Crosslinguistic Low-resource Morphological Segmentation
Zoey Liu, Emily Prud'hommeaux
Low Resource Language Model Generalization Model Evaluation Model Generalizability Lexical Overlap Morphological Task

December 18, 2021

Cascading Adaptors to Leverage English Data to Improve Performance of Question Answering for Low-Resource Languages
Hariom A. Pandya, Bhavik Ardeshna, Dr. Brijesh S. Bhatt
System Performance Low Resource Language Yes No Question Adapter Module Multilingual Transformer English Dataset Pre Trained Multilingual Model

December 16, 2021

Harnessing Cross-lingual Features to Improve Cognate Detection for Low-resource Languages
Diptesh Kanojia, Raj Dabre, Shubham Dewangan, Pushpak Bhattacharyya, Gholamreza Haffari, Malhar Kulkarni
Low Resource Language Cross Lingual Wire Harness Cross Lingual Model Cognate Detection

December 15, 2021

Lesan -- Machine Translation for Low Resource Languages
Asmelash Teka Hadgu, Abel Aregawi, Adam Beaudoin
Machine Translation Low Resource Language Translation Model Monolingual Corpus Resource Language Pair

December 8, 2021

ADBCMM : Acronym Disambiguation by Building Counterfactuals and Multilingual Mixing
Yixuan Weng, Fei Xia, Bin Li, Xiusheng Huang, Shizhu He
Low Resource Language Related Task Additional Disambiguation Task Acronym Disambiguation

November 19, 2021

Semi-supervised transfer learning for language expansion of end-to-end speech recognition models to low-resource languages
Jiyeon Kim, Mehul Kumar, Dhananjaya Gowda, Abhinav Garg, Chanwoo Kim
Data Augmentation End to End Low Resource Language Low Resource Speech to Text Semi Supervised Transfer

November 6, 2021

Towards Building ASR Systems for the Next Billion Users
Tahir Javed, Sumanth Doddapaneni, Abhigyan Raman, Kaushal Santosh Bhogale, Gowtham Ramesh, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra
Low Resource Language ASR System Multilingual Pretraining Wav2Vec2 Model

Papers

CaMEL: Case Marker Extraction without Labels

Morphological Processing of Low-Resource Languages: Where We Are and What's Next

Pre-Trained Multilingual Sequence-to-Sequence Models: A Hope for Low-Resource Language Translation?

Zero-Shot Dependency Parsing with Worst-Case Aware Automated Curriculum Learning

Does Corpus Quality Really Matter for Low-Resource Languages?

ViWOZ: A Multi-Domain Task-Oriented Dialogue Systems Dataset For Low-resource Language

Overlap-based Vocabulary Generation Improves Cross-lingual Transfer Among Related Languages

OCR Improves Machine Translation for Low-Resource Languages

APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets

XAlign: Cross-lingual Fact-to-Text Alignment and Generation for Low-Resource Languages

Part of Speech Tagging (POST) of a Low-resource Language using another Language (Developing a POS-Tagged Lexicon for Kurdish (Sorani) using a Tagged Persian (Farsi) Corpus)

Systematic Investigation of Strategies Tailored for Low-Resource Settings for Low-Resource Dependency Parsing

Data-driven Model Generalizability in Crosslinguistic Low-resource Morphological Segmentation

Cascading Adaptors to Leverage English Data to Improve Performance of Question Answering for Low-Resource Languages

Harnessing Cross-lingual Features to Improve Cognate Detection for Low-resource Languages

Lesan -- Machine Translation for Low Resource Languages

ADBCMM : Acronym Disambiguation by Building Counterfactuals and Multilingual Mixing

Semi-supervised transfer learning for language expansion of end-to-end speech recognition models to low-resource languages

Towards Building ASR Systems for the Next Billion Users