Cross Lingual Generalisation

Cross-lingual generalization focuses on enabling language models trained on one language (often English) to perform well on others, bridging the digital divide and expanding access to natural language processing (NLP) technologies. Current research investigates factors influencing this generalization, such as data imbalance during training (where some languages are significantly more represented than others), the minimal amount of multilingual data needed for effective transfer, and the fairness of these models across different languages. This work is crucial for developing truly multilingual NLP systems and ensuring equitable access to advanced language technologies across diverse linguistic communities, impacting fields ranging from machine translation to question answering.

Papers

April 11, 2024

The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments
Anton Schäfer, Shauli Ravfogel, Thomas Hofmann, Tiago Pimentel, Imanol Schlag
Multilingual Model Language Imbalance Cross Lingual Generalisation

December 20, 2023

Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?
Tannon Kew, Florian Schottmann, Rico Sennrich
Cross Lingual Transfer Multilingual Instruction Polyglot File Cross Lingual Generalisation

October 11, 2022

Are Pretrained Multilingual Models Equally Fair Across Languages?
Laura Cabello Piqueras, Anders Søgaard
Multilingual Model Multilingual Language Model Multilingual Dataset Monolingual Model Language Fairness Cross Lingual Generalisation

September 7, 2022

Improving the Cross-Lingual Generalisation in Visual Question Answering
Farhad Nooralahzadeh, Rico Sennrich
Visual Question Answering Cross Lingual Transfer Pre Trained Vision Language Model Multilingual Vision Cross Lingual Generalisation

Cross Lingual Generalisation

Papers

The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments

Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?

Are Pretrained Multilingual Models Equally Fair Across Languages?

Improving the Cross-Lingual Generalisation in Visual Question Answering