Multilingual Evaluation

Multilingual evaluation of large language models (LLMs) aims to assess their performance across diverse languages, going beyond the dominant English-centric benchmarks. Current research focuses on developing more comprehensive and representative multilingual datasets, evaluating various model architectures (including both open-source and proprietary models) on diverse tasks (e.g., question answering, translation, sentiment analysis), and analyzing performance disparities across languages with varying resource levels. This rigorous evaluation is crucial for identifying biases, improving model robustness, and ensuring equitable access to advanced language technologies across different linguistic communities.

Papers

May 28, 2024

Thai Winograd Schemas: A Benchmark for Thai Commonsense Reasoning
Phakphum Artkaew
New Benchmark Commonsense Reasoning Commonsense Reasoning Task Multilingual Evaluation Commonsense Reasoning Capability Winograd Convolution Structured Commonsense Reasoning

May 18, 2024

Cross-Language Assessment of Mathematical Capability of ChatGPT
Gargi Sathe, Aneesh Shamraj, Aditya Surve, Nahush Patil, Kumkum Saxena
ChatGPT Generated Conversation Language Understanding OpenAI Codex Multilingual Evaluation Mathematical Capability

May 15, 2024

PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models
Devansh Jain, Priyanshu Kumar, Samuel Gehman, Xuhui Zhou, Thomas Hartvigsen, Maarten Sap
Toxicity Detection Multilingual Evaluation Toxicity Annotation Physical Symptom Gated Toxicity Avoidance

April 13, 2024

Multilingual Evaluation of Semantic Textual Relatedness
Sharvi Endait, Srushti Sonavane, Ridhima Sinare, Pritika Rohera, Advait Naik, Dipali Kadam
Language Model Natural Language Processing Multilingual Evaluation Semantic Textual Relatedness

March 15, 2024

Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models
Chaoqun Liu, Wenxuan Zhang, Yiran Zhao, Anh Tuan Luu, Lidong Bing
Large Language Model Natural Language Processing Study Feature View Translation Multilingual Large Language Model Multilingual Capability Multilingual Evaluation Multilingual Task

February 26, 2024

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
Isabelle Mohr, Markus Krimmel, Saba Sturua, Mohammad Kalim Akram, Andreas Koukounas, Michael Günther, Georgios Mastrapas, Vinit Ravishankar, Joan Fontanals Martínez, Feng Wang, Qi Liu, Ziniu Yu, Jie Fu, Saahil Ognawala, Susana Guzman, Bo Wang, Maximilian Werk, Nan Wang, Han Xiao
Contrastive Learning Multilingual Model Multilingual Evaluation Bilingual Model

February 15, 2024

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains
Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier, Richard Dufour
Open Source Large Language Model Medical Domain Multilingual Benchmark Medical Question Answering Open Source Model Multilingual Evaluation Golden Collection

February 12, 2024

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model
Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker
Large Language Model Generative Language Model Human Instruction High Resource Language Multilingual Evaluation

January 15, 2024

MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models
Divyanshu Aggarwal, Ashutosh Sathe, Ishaan Watts, Sunayana Sitaram
Language Model Multilingual Evaluation Parameter Efficient Finetuning Multilingual Instruction

November 21, 2023

The Obscure Limitation of Modular Multilingual Language Models
Muhammad Farid Adilazuarda, Samuel Cahyawijaya, Ayu Purwarianti
Language Model Fundamental Limitation Language Identification Multilingual Scenario Multilingual Evaluation Cross Lingual Natural Language Inference

November 15, 2023

MELA: Multilingual Evaluation of Linguistic Acceptability
Ziyin Zhang, Yikang Liu, Weifang Huang, Junyu Mao, Rui Wang, Hai Hu
Cross Lingual Transfer Multilingual Evaluation Bilingual Model Linguistic Acceptability Syntax Acquisition

October 19, 2023

Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Queries
Yiqiao Jin, Mohit Chandra, Gaurav Verma, Yibo Hu, Munmun De Choudhury, Srijan Kumar
Large Language Model QA Datasets Multilingual Capability Multilingual Evaluation Health Related

September 14, 2023

June 22, 2023

Overview of Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems at DSTC 11 Track 4
Mario Rodríguez-Cantelar, Chen Zhang, Chengguang Tang, Ke Shi, Sarik Ghazarian, João Sedoc, Luis Fernando D'Haro, Alexander Rudnicky
Dialogue System Open Domain Dialogue System Multilingual Evaluation Shared Track Automatic Evaluation Metric System Technology Challenge

June 14, 2023

Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations
Gregor Geigle, Radu Timofte, Goran Glavaš
Multilingual Model Vision Language Representation Multilingual Evaluation ImageNet Accuracy ImageNet E Multilingual CLIP

May 30, 2023

A Multilingual Evaluation of NER Robustness to Adversarial Inputs
Akshay Srinivasan, Sowmya Vajjala
Language Model Entity Recognition Named Entity Recognition Adversarial Input Multilingual Evaluation Adversarial Evaluation

May 18, 2023

NollySenti: Leveraging Transfer Learning and Machine Translation for Nigerian Movie Sentiment Classification
Iyanuoluwa Shode, David Ifeoluwa Adelani, Jing Peng, Anna Feldman
Domain Adaptation Transfer Learning Machine Translation Cross Lingual Multilingual Evaluation

April 28, 2023

NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language Selection for Low-Resource Multilingual Sentiment Analysis
Mingyang Wang, Heike Adel, Lukas Lange, Jannik Strötgen, Hinrich Schütze
Natural Language Processing Sentiment Analysis SemEval 2022 Task Multilingual Evaluation

March 30, 2023

CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X
Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang
Pre Trained Model Code Generation Code Representation Multilingual Evaluation GIT Net Pre Trained Code Generation Model

Multilingual Evaluation

Papers

Thai Winograd Schemas: A Benchmark for Thai Commonsense Reasoning

Cross-Language Assessment of Mathematical Capability of ChatGPT

PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models

Multilingual Evaluation of Semantic Textual Relatedness

Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models

The Obscure Limitation of Modular Multilingual Language Models

MELA: Multilingual Evaluation of Linguistic Acceptability

Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Queries

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects

Overview of Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems at DSTC 11 Track 4

Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations

A Multilingual Evaluation of NER Robustness to Adversarial Inputs

NollySenti: Leveraging Transfer Learning and Machine Translation for Nigerian Movie Sentiment Classification

NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language Selection for Low-Resource Multilingual Sentiment Analysis

CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X