Multilingual Language Model

Multilingual language models (MLLMs) aim to create AI systems capable of understanding and generating text across multiple languages, overcoming the limitations of English-centric models. Current research focuses on improving MLLM performance in low-resource languages, mitigating biases towards dominant languages, and developing techniques for efficient knowledge editing and unlearning to address privacy and ethical concerns. These advancements are crucial for broadening access to AI-powered tools and fostering more equitable and inclusive natural language processing applications globally.

Papers

March 15, 2024

MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling
Tomasz Limisiewicz, Terra Blevins, Hila Gonen, Orevaoghene Ahia, Luke Zettlemoyer
Language Model Multilingual Language Model Good Better Data Encoding Cross Lingual Learning Encoding Scheme Byte Pair Encoding

March 8, 2024

Tracing the Roots of Facts in Multilingual Language Models: Independent, Shared, and Transferred Knowledge
Xin Zhao, Naoki Yoshinaga, Daisuke Oba
Language Model Multilingual Language Model Multilingual BERT Sharing Matter Multi FAct SHUSS Root Exploration Term

March 6, 2024

Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling
Chao-Wei Huang, Chen-An Li, Tsu-Yuan Hsu, Chen-Yu Hsu, Yun-Nung Chen
Pseudo Label Multilingual Language Model MultiLingual Information Retrieval

March 4, 2024

adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds
Séamus Lankford, Haithem Afli, Andy Way
Low Resource Language Multilingual Language Model MLLM Attention LLM Simulation

February 21, 2024

February 16, 2024

Do Llamas Work in English? On the Latent Language of Multilingual Transformers
Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West
Language Model Multilingual Language Model Intermediate Representation Intermediate Latent Multilingual Transformer Token Embeddings Whispering Llama

February 5, 2024

KS-Lottery: Finding Certified Lottery Tickets for Multilingual Language Models
Fei Yuan, Chang Ma, Shuai Yuan, Qiushi Sun, Lei Li
Fine Tuning Multilingual Language Model LLM Fine Tuning Lottery Ticket Lottery Ticket Hypothesis

February 3, 2024

January 30, 2024

Cross-Lingual Transfer from Related Languages: Treating Low-Resource Maltese as Multilingual Code-Switching
Kurt Micallef, Nizar Habash, Claudia Borg, Fadhl Eryani, Houda Bouamor
Multilingual Model Cross Lingual Transfer Multilingual Language Model Different Language Lingual Transfer Capability Low Resource Maltese

January 22, 2024

Text Embedding Inversion Security for Multilingual Language Models
Yiyi Chen, Heather Lent, Johannes Bjerva
Text Modality Multilingual Model Multilingual Language Model Inversion Attack Cross Lingual Backdoor Attack

January 19, 2024

January 11, 2024

Discovering Low-rank Subspaces for Language-agnostic Multilingual Representations
Zhihui Xie, Handong Zhao, Tong Yu, Shuai Li
Multilingual Language Model Zero Shot Cross Lingual Transfer Language Agnostic Monolingual Corpus Cross Lingual Supervision

December 12, 2023

Multilingual large language models leak human stereotypes across language boundaries
Yang Trista Cao, Anna Sotnikova, Jieyu Zhao, Linda X. Zou, Rachel Rudinger, Hal Daume III
Multilingual Model Multilingual Language Model Multilingual Large Language Model Stereotype Content Linguistic Landscape

December 11, 2023

Order Matters in the Presence of Dataset Imbalance for Multilingual Learning
Dami Choi, Derrick Xin, Hamid Dadkhahi, Justin Gilmer, Ankush Garg, Orhan Firat, Chih-Kuan Yeh, Andrew M. Dai, Behrooz Ghorbani
Multi Task Learning Neural Machine Translation Low Resource Speech Presence Multilingual Language Model Imbalanced Data Order Matter Cross Lingual Learning

November 15, 2023

Multilingual Language Model

Papers

MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling

Tracing the Roots of Facts in Multilingual Language Models: Independent, Shared, and Transferred Knowledge

Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling

adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds

Towards Building Multilingual Language Model for Medicine

Analysis of Multi-Source Language Training in Cross-Lingual Transfer

Do Llamas Work in English? On the Latent Language of Multilingual Transformers

KS-Lottery: Finding Certified Lottery Tickets for Multilingual Language Models

Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon

Analyzing the Evaluation of Cross-Lingual Knowledge Transfer in Multilingual Language Models

Cross-Lingual Transfer from Related Languages: Treating Low-Resource Maltese as Multilingual Code-Switching

Text Embedding Inversion Security for Multilingual Language Models

A Simple Framework to Accelerate Multilingual Language Model for Monolingual Text Generation

Cross-lingual Editing in Multilingual Language Models

Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models

Discovering Low-rank Subspaces for Language-agnostic Multilingual Representations

Multilingual large language models leak human stereotypes across language boundaries

Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages

Structural Priming Demonstrates Abstract Grammatical Representations in Multilingual Language Models