Multilingual Model

Multilingual models aim to process and generate text across multiple languages, overcoming limitations of monolingual approaches and expanding access to natural language processing (NLP) for low-resource languages. Current research focuses on improving the performance of these models, particularly for low-resource languages, using architectures like transformer-based models (e.g., BERT, mT5) and exploring techniques such as instruction tuning, knowledge distillation, and targeted multilingual adaptation. This work is significant because it addresses biases inherent in predominantly English-centric models and enables broader access to NLP tools and applications across diverse linguistic communities.

Papers

July 19, 2022

On the cross-lingual transferability of multilingual prototypical models across NLU tasks
Oralie Cattan, Christophe Servan, Sophie Rosset
Language Model Transfer Learning Multilingual Model Cross Lingual Transferability

July 14, 2022

Learning to translate by learning to communicate
C. M. Downey, Xuhui Zhou, Leo Z. Liu, Shane Steinert-Threlkeld
LeArning Abstract Multilingual Model Cross Lingual Emergent Communication Pre Trained Multilingual Model Unsupervised NMT

July 11, 2022

HLT-MT: High-resource Language-specific Training for Multilingual Neural Machine Translation
Jian Yang, Yuwei Yin, Shuming Ma, Dongdong Zhang, Zhoujun Li, Furu Wei
Multilingual Model Multilingual Machine Translation Multilingual Neural Machine Translation Multilingual Training

June 6, 2022

A computational psycholinguistic evaluation of the syntactic abilities of Galician BERT models at the interface of dependency resolution and training time
Iria de-Dios-Flores, Marcos Garcia
BERT Model Multilingual Model Training Time Agreement Metric Word Prediction Monolingual BERT Model Dependency Analysis

June 5, 2022

Exploring Cross-lingual Textual Style Transfer with Large Multilingual Language Models
Daniil Moskovskiy, Daryna Dementieva, Alexander Panchenko
Large Language Model Multilingual Model Multilingual Large Language Model Text Style Transfer

May 31, 2022

Refining Low-Resource Unsupervised Translation by Language Disentanglement of Multilingual Model
Xuan-Phi Nguyen, Shafiq Joty, Wu Kui, Ai Ti Aw
Machine Translation Multilingual Model Speech Representation Disentanglement Pre Trained Multilingual Low Resource Translation

May 25, 2022

May 24, 2022

May 20, 2022

Descartes: Generating Short Descriptions of Wikipedia Articles
Marija Sakota, Maxime Peyrard, Robert West
Knowledge Graph Multilingual Model Monolingual Model Wikipedia Article Wikipedia Category Description Generation

May 19, 2022

Phylogeny-Inspired Adaptation of Multilingual Models to New Languages
Fahim Faisal, Antonios Anastasopoulos
Multilingual Model Language Task New Language Language Technology Cross Lingual Learning Language Family

May 13, 2022

May 12, 2022

May 9, 2022

Building Machine Translation Systems for the Next Thousand Languages
Ankur Bapna, Isaac Caswell, Julia Kreutzer, Orhan Firat, Daan van Esch, Aditya Siddhant, Mengmeng Niu, Pallavi Baljekar, Xavier Garcia, Wolfgang Macherey, Theresa Breiner, Vera Axelrod, Jason Riesa, Yuan Cao, Mia Xu Chen, Klaus Macherey, Maxim Krikun, Pidong Wang, Alexander Gutkin, Apurva Shah, Yanping Huang, Zhifeng Chen, Yonghui Wu, Macduff Hughes
Machine Translation Multilingual Model High Resource Language Machine Translation System Monolingual Data New Language

May 4, 2022

A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation
David Ifeoluwa Adelani, Jesujoba Oluwadara Alabi, Angela Fan, Julia Kreutzer, Xiaoyu Shen, Machel Reid, Dana Ruiter, Dietrich Klakow, Peter Nabende, Ernie Chang, Tajuddeen Gwadabe, Freshia Sackey, Bonaventure F. P. Dossou, Chris Chinenye Emezue, Colin Leong, Michael Beukman, Shamsuddeen Hassan Muhammad, Guyo Dub Jarso, Oreen Yousuf, Andre Niyongabo Rubungo, Gilles Hacheme, Eric Peter Wairagala, Muhammad Umair Nasir, Benjamin Ayoade Ajibade, Tunde Oluwaseyi Ajayi, Yvonne Wambui Gitau, Jade Abbott, Mohamed Ahmed, Millicent Ochieng, Anuoluwapo Aremu, Perez Ogayo, Jonathan Mukiibi, Fatoumata Ouoba Kabore, Godson Koffi Kalipe, Derguene Mbaye, Allahsera Auguste Tapo, Victoire Memdjokam Koagne, Edwin Munkoh-Buabeng, Valencia Wagner, Idris Abdulmumin, Ayodele Awokoya, Happy Buzaaba, Blessing Sibanda, Andiswa Bukula, Sam Manthalu
Language Model Pre Trained Model Multilingual Model Translation Model Translation Datasets Low Resource Translation Multilingual News

April 29, 2022

Czech Dataset for Cross-lingual Subjectivity Classification
Pavel Přibáň, Josef Steinberger
Multilingual Model Zero Shot Cross Lingual Pre Trained Multilingual Model Czech Dataset

April 26, 2022

Data Bootstrapping Approaches to Improve Low Resource Abusive Language Detection for Indic Languages
Mithun Das, Somnath Banerjee, Animesh Mukherjee
Multilingual Model Indian Language Abusive Language Detection Abusive Language

Multilingual Model

Papers

On the cross-lingual transferability of multilingual prototypical models across NLU tasks

Learning to translate by learning to communicate

HLT-MT: High-resource Language-specific Training for Multilingual Neural Machine Translation

A computational psycholinguistic evaluation of the syntactic abilities of Galician BERT models at the interface of dependency resolution and training time

Exploring Cross-lingual Textual Style Transfer with Large Multilingual Language Models

Refining Low-Resource Unsupervised Translation by Language Disentanglement of Multilingual Model

Discovering Language-neutral Sub-networks in Multilingual Language Models

Bitext Mining Using Distilled Sentence Representations for Low-Resource Languages

Hyper-X: A Unified Hypernetwork for Multi-Task Multilingual Transfer

Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models

Descartes: Generating Short Descriptions of Wikipedia Articles

Phylogeny-Inspired Adaptation of Multilingual Models to New Languages

Who Are We Talking About? Handling Person Names in Speech Translation

Controlling Translation Formality Using Pre-trained Multilingual Language Models

On the Economics of Multilingual Few-shot Learning: Modeling the Cost-Performance Trade-offs of Machine Translated and Manual Data

Multi Task Learning For Zero Shot Performance Prediction of Multilingual Models

Building Machine Translation Systems for the Next Thousand Languages

A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation

Czech Dataset for Cross-lingual Subjectivity Classification

Data Bootstrapping Approaches to Improve Low Resource Abusive Language Detection for Indic Languages