Multilingual Dialogue Evaluation

Multilingual dialogue evaluation aims to automatically assess the quality of conversations across multiple languages, a crucial step for developing truly global conversational AI systems. Current research focuses on creating robust and multilingual evaluation metrics, often leveraging large language models (LLMs) and exploring both prompt-based and fine-tuned approaches, sometimes incorporating machine translation to expand limited multilingual datasets. These efforts are significant because accurate, language-independent evaluation is essential for advancing dialogue system research and enabling the development of more effective and inclusive conversational AI applications.

Papers

July 16, 2024

ECoh: Turn-level Coherence Evaluation for Multilingual Dialogues
John Mendonça, Isabel Trancoso, Alon Lavie
Response Generation Dialogue Evaluation Coherence Evaluation Multilingual Detection Multilingual Dialogue Evaluation

October 13, 2023

xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark
Chen Zhang, Luis Fernando D'Haro, Chengguang Tang, Ke Shi, Guohua Tang, Haizhou Li
Open Domain Dialogue Dialogue Data G Eval Multilingual Dialogue Evaluation

August 31, 2023

Multilingual Dialogue Evaluation

Papers

ECoh: Turn-level Coherence Evaluation for Multilingual Dialogues

xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark

Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation

Towards Multilingual Automatic Dialogue Evaluation