Multilingual Language Model

Multilingual language models (MLLMs) aim to create AI systems capable of understanding and generating text across multiple languages, overcoming the limitations of English-centric models. Current research focuses on improving MLLM performance in low-resource languages, mitigating biases towards dominant languages, and developing techniques for efficient knowledge editing and unlearning to address privacy and ethical concerns. These advancements are crucial for broadening access to AI-powered tools and fostering more equitable and inclusive natural language processing applications globally.

Papers

September 9, 2023

Embedding structure matters: Comparing methods to adapt multilingual vocabularies to new languages
C. M. Downey, Terra Blevins, Nora Goldfine, Shane Steinert-Threlkeld
NCD Method Multilingual Model Multilingual Language Model Inner Structure New Language Multilingual Lexicon

August 23, 2023

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
Jinyi Hu, Yuan Yao, Chongyi Wang, Shan Wang, Yinxu Pan, Qianyu Chen, Tianyu Yu, Hanghao Wu, Yue Zhao, Haoye Zhang, Xu Han, Yankai Lin, Jiao Xue, Dahai Li, Zhiyuan Liu, Maosong Sun
Zero Shot Large Multimodal Model Multimodal Data Multimodal Model Multilingual Language Model Unknown Language

August 17, 2023

Differential Privacy, Linguistic Fairness, and Training Data Influence: Impossibility and Possibility Theorems for Multilingual Language Models
Phillip Rust, Anders Søgaard
Language Model Differential Privacy Multilingual Language Model Cross Lingual Generalization Language Fairness Training Data Influence

August 16, 2023

Lightweight Adaptation of Neural Language Models via Subspace Embedding
Amit Kumar Jaiswal, Haiming Liu
Language Model Pre Trained Language Model Word Embeddings Multilingual Language Model Neural Language Model Subspace Prototype

August 2, 2023

Do Multilingual Language Models Think Better in English?
Julen Etxaniz, Gorka Azkune, Aitor Soroa, Oier Lopez de Lacalle, Mikel Artetxe
Language Model Multilingual Language Model Good Better Machine Translation System Shot Translation

July 3, 2023

Multilingual Language Models are not Multicultural: A Case Study in Emotion
Shreya Havaldar, Sunny Rai, Bhumika Singhal, Langchen Liu, Sharath Chandra Guntuku, Lyle Ungar
Case Study Multilingual Language Model Underlying Emotion Emotional Expression

July 1, 2023

Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin
Pin-Jie Lin, Muhammed Saeed, Ernie Chang, Merel Scholman
Pre Trained Language Model Natural Language Cross Lingual Low Resource Multilingual Language Model African Language

June 21, 2023

A Reference-less Quality Metric for Automatic Speech Recognition via Contrastive-Learning of a Multi-Language Model with Self-Supervision
Kamer Ali Yuksel, Thiago Ferreira, Ahmet Gunduz, Mohamed Al-Badrashiny, Golara Javadi
Automatic Speech Recognition Multilingual Model Self Supervision Multilingual Language Model Automatic Speech Recognition Hypothesis Quality Metric

June 12, 2023

Lost in Translation: Large Language Models in Non-English Content Analysis
Gabriel Nicholas, Aliya Bhatia
Large Language Model Chatbot Response Multilingual Language Model View Translation OpenAI Codex Online Conversation

June 11, 2023

RoBERTweet: A BERT Language Model for Romanian Tweets
Iulian-Marius Tăiatu, Andrei-Marius Avram, Dumitru-Clementin Cercel, Florin Pop
Language Model Natural Language Processing Social Medium Multilingual Language Model Romanian Natural Language English Tweet

June 8, 2023

T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text Classification
Inigo Jauregi Unanue, Gholamreza Haffari, Massimo Piccardi
Transfer Learning Neural Machine Translation Multilingual Language Model Cross Lingual Text Classification

June 7, 2023

XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages and Meaning Representations
Yusen Zhang, Jun Wang, Zhiguo Wang, Rui Zhang
Multilingual Model Semantic Parsing Multilingual Language Model Multilingual Large Language Model Shot Cross Lingual Meaning Representation

June 5, 2023

June 2, 2023

LyricSIM: A novel Dataset and Benchmark for Similarity Detection in Spanish Song LyricS
Alejandro Benito-Santos, Adrián Ghajari, Pedro Hernández, Víctor Fresno, Salvador Ros, Elena González-Blanco
New Benchmark Multilingual Language Model Semantic Similarity Novel Dataset Lyric Alignment Similarity Detection

June 1, 2023

Exploring Anisotropy and Outliers in Multilingual Language Models for Cross-Lingual Semantic Sentence Similarity
Katharina Hämmerl, Alina Fastowski, Jindřich Libovický, Alexander Fraser
Multilingual Model Cross Lingual Multilingual Language Model Sentence Representation Multilingual Pre Trained Language Model Multilingual Representation

May 26, 2023

May 24, 2023

An Efficient Multilingual Language Model Compression through Vocabulary Trimming
Asahi Ushio, Yi Zhou, Jose Camacho-Collados
Multilingual Language Model Monolingual Model Enhanced Vocabulary Language Model Compression

Multilingual Language Model

Papers

Embedding structure matters: Comparing methods to adapt multilingual vocabularies to new languages

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

Differential Privacy, Linguistic Fairness, and Training Data Influence: Impossibility and Possibility Theorems for Multilingual Language Models

Lightweight Adaptation of Neural Language Models via Subspace Embedding

Do Multilingual Language Models Think Better in English?

Multilingual Language Models are not Multicultural: A Case Study in Emotion

Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin

A Reference-less Quality Metric for Automatic Speech Recognition via Contrastive-Learning of a Multi-Language Model with Self-Supervision

Lost in Translation: Large Language Models in Non-English Content Analysis

RoBERTweet: A BERT Language Model for Romanian Tweets

T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text Classification

XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages and Meaning Representations

Exploring the Relationship between Alignment and Cross-lingual Transfer in Multilingual Transformers

Cross-Lingual Transfer Learning for Phrase Break Prediction with Multilingual Language Model

LyricSIM: A novel Dataset and Benchmark for Similarity Detection in Spanish Song LyricS

Exploring Anisotropy and Outliers in Multilingual Language Models for Cross-Lingual Semantic Sentence Similarity

Tokenization Impacts Multilingual Language Modeling: Assessing Vocabulary Allocation and Overlap Across Languages

Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging

Towards a Common Understanding of Contributing Factors for Cross-Lingual Transfer in Multilingual Language Models: A Review

An Efficient Multilingual Language Model Compression through Vocabulary Trimming