Cross Lingual Transfer

Cross-lingual transfer aims to leverage knowledge learned from high-resource languages to improve performance on low-resource languages in natural language processing tasks. Current research focuses on adapting large language models (LLMs) for cross-lingual transfer, employing techniques like model merging, data augmentation (including synthetic data generation and transliteration), and innovative training strategies such as in-context learning and continual pre-training. This research is crucial for expanding the reach of NLP to a wider range of languages, enabling applications like multilingual question answering, sentiment analysis, and code generation to benefit diverse communities globally.

Papers

December 20, 2022

Mini-Model Adaptation: Efficiently Extending Pretrained Models to New Languages via Aligned Shallow Training
Kelly Marchisio, Patrick Lewis, Yihong Chen, Mikel Artetxe
Cross Lingual Transfer Masked Language Model Adaptation Language Specific New Language Shallow Learning New Embeddings

December 19, 2022

Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages
Ercong Nie, Sheng Liang, Helmut Schmid, Hinrich Schütze
Low Resource Language Cross Lingual Transfer Cross Lingual Multilingual Pre Trained Language Model Cross Lingual Retrieval Multilingual Text

December 15, 2022

DAMP: Doubly Aligned Multilingual Parser for Task-Oriented Dialogue
William Held, Christopher Hidey, Fei Liu, Eric Zhu, Rahul Goel, Diyi Yang, Rushin Shah
Cross Lingual Transfer Semantic Parsing Task Oriented Multilingual Task Lingual Alignment

December 14, 2022

Evaluating Byte and Wordpiece Level Models for Massively Multilingual Semantic Parsing
Massimo Nicosia, Francesco Piccinno
Cross Lingual Transfer Semantic Parsing Sequence Modeling Sub Byte Label Projection

December 7, 2022

JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset
Ruth-Ann Armstrong, John Hewitt, Christopher Manning
Natural Language Processing Low Resource Language Natural Language Inference Cross Lingual Transfer Low Resourced Language

December 4, 2022

Languages You Know Influence Those You Learn: Impact of Language Characteristics on Multi-Lingual Text-to-Text Transfer
Benjamin Muller, Deepanshu Gupta, Siddharth Patwardhan, Jean-Philippe Fauconnier, David Vandyke, Sachin Agarwal
Global Impact Cross Lingual Transfer Cross Lingual Multilingual Language Model External Influence Unknown Language Linguistic Feature Cross Linguistic Cross Lingual Understanding

November 30, 2022

Domain Mismatch Doesn't Always Prevent Cross-Lingual Transfer Learning
Daniel Edmiston, Phillip Keung, Noah A. Smith
Cross Lingual Transfer Cross Lingual Zero Shot Cross Lingual Domain Discrepancy Cross Lingual Transfer Learning Bilingual Lexicon Induction Domain Corpus

November 28, 2022

Frustratingly Easy Label Projection for Cross-lingual Transfer
Yang Chen, Chao Jiang, Alan Ritter, Wei Xu
Cross Lingual Transfer Label Projection Span Level Annotation Annotation Projection

November 13, 2022

GreenPLM: Cross-Lingual Transfer of Monolingual Pre-Trained Language Models at Almost No Cost
Qingcheng Zeng, Lucas Garay, Peilin Zhou, Dading Chong, Yining Hua, Jiageng Wu, Yikang Pan, Han Zhou, Rob Voigt, Jie Yang
Natural Language Processing Pre Trained Language Model BERT Model Cross Lingual Transfer Hidden CoST Multilingual Capability Monolingual Language Model Monolingual Pre Trained

October 31, 2022

Data-Efficient Cross-Lingual Transfer with Language-Specific Subnetworks
Rochelle Choenni, Dan Garrette, Ekaterina Shutova
Cross Lingual Transfer Data Efficient Language Specific

October 23, 2022

Model and Data Transfer for Cross-Lingual Sequence Labelling in Zero-Resource Settings
Iker García-Ferrero, Rodrigo Agerri, German Rigau
Full Model Cross Lingual Transfer Low Resource Data Transfer Cross Lingual Sequence

October 22, 2022

October 21, 2022

On the Calibration of Massively Multilingual Language Models
Kabir Ahuja, Sunayana Sitaram, Sandipan Dandapat, Monojit Choudhury
Low Resource Language Multilingual Model Cross Lingual Transfer Calibration Performance Multilingual Language Model Label Smoothing

October 17, 2022

Improving Low-Resource Cross-lingual Parsing with Expected Statistic Regularization
Thomas Effland, Michael Collins
Cross Lingual Transfer Low Resource Semi Supervised Transfer

October 13, 2022

September 30, 2022

Language-Family Adapters for Low-Resource Multilingual Neural Machine Translation
Alexandra Chronopoulou, Dario Stojanovski, Alexander Fraser
Fine Tuning Multilingual Model Cross Lingual Transfer Language Pair Adapter Module Low Resource Neural Machine Translation Language Adapter

September 25, 2022

An Empirical Study on Cross-X Transfer for Legal Judgment Prediction
Joel Niklaus, Matthias Stürmer, Ilias Chalkidis
Empirical Study Cross Lingual Transfer Legal Judgment Prediction Cross Lingual Transfer Learning Legal Natural Language Processing

Cross Lingual Transfer

Papers

Mini-Model Adaptation: Efficiently Extending Pretrained Models to New Languages via Aligned Shallow Training

Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages

DAMP: Doubly Aligned Multilingual Parser for Task-Oriented Dialogue

Evaluating Byte and Wordpiece Level Models for Massively Multilingual Semantic Parsing

JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset

Languages You Know Influence Those You Learn: Impact of Language Characteristics on Multi-Lingual Text-to-Text Transfer

Domain Mismatch Doesn't Always Prevent Cross-Lingual Transfer Learning

Frustratingly Easy Label Projection for Cross-lingual Transfer

GreenPLM: Cross-Lingual Transfer of Monolingual Pre-Trained Language Models at Almost No Cost

Data-Efficient Cross-Lingual Transfer with Language-Specific Subnetworks

Model and Data Transfer for Cross-Lingual Sequence Labelling in Zero-Resource Settings

EntityCS: Improving Zero-Shot Cross-lingual Transfer with Entity-Centric Code Switching

Training Dynamics for Curriculum Learning: A Study on Monolingual and Cross-lingual NLU

MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition

On the Calibration of Massively Multilingual Language Models

Improving Low-Resource Cross-lingual Parsing with Expected Statistic Regularization

You Can Have Your Data and Balance It Too: Towards Balanced and Efficient Multilingual Models

A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models

Language-Family Adapters for Low-Resource Multilingual Neural Machine Translation

An Empirical Study on Cross-X Transfer for Legal Judgment Prediction