Dialogue Evaluation

Dialogue evaluation aims to automatically assess the quality of conversations generated by AI systems, striving to align automated scores with human judgments of factors like coherence, fluency, and relevance. Current research heavily utilizes large language models (LLMs), often fine-tuned or prompted for specific evaluation tasks, to create automated metrics and datasets for benchmarking dialogue systems across multiple languages and domains. This field is crucial for advancing the development of more human-like and effective conversational AI, impacting both research methodologies and the practical deployment of chatbots and other dialogue agents in various applications.

Papers

November 21, 2022

CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog Evaluation
Yinpei Dai, Wanwei He, Bowen Li, Yuchuan Wu, Zheng Cao, Zhongqi An, Jian Sun, Yongbin Li
Dialogue Evaluation Spoken Dialogue System Conversational Information Retrieval

November 19, 2022

Bipartite-play Dialogue Collection for Practical Automatic Evaluation of Dialogue Systems
Shiki Sato, Yosuke Kishinami, Hiroaki Sugiyama, Reina Akama, Ryoko Tokuhisa, Jun Suzuki
Dialogue System Automatic Evaluation Dialogue Evaluation Dialogue Act Dialogue System Research

October 25, 2022

FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation
Chen Zhang, Luis Fernando D'Haro, Qiquan Zhang, Thomas Friedrichs, Haizhou Li
Fine Grained Evaluation Metric Open Domain Dialogue Dialogue Evaluation Dialogue Benchmark G Eval Dialogue Quality

September 2, 2022

Dialogue Evaluation with Offline Reinforcement Learning
Nurul Lubis, Christian Geishauser, Hsien-Chin Lin, Carel van Niekerk, Michael Heck, Shutong Feng, Milica Gašić
Offline Reinforcement Learning Dialogue System Dialogue Evaluation Dialogue Benchmark

June 3, 2022

Relevance in Dialogue: Is Less More? An Empirical Comparison of Existing Metrics, and a Novel Simple Metric
Ian Berlot-Attwell, Frank Rudzicz
Language Model Domain Specific Dialogue Utterance Relative Relevance Novel Metric Dialogue Evaluation Empirical Comparison New Metric

March 25, 2022

What is wrong with you?: Leveraging User Sentiment for Automatic Dialog Evaluation
Sarik Ghazarian, Behnam Hedayatnia, Alexandros Papangelis, Yang Liu, Dilek Hakkani-Tur
Open Domain User Sentiment Open Domain Dialogue Human Annotated Automatic Evaluation Metric Dialogue Evaluation

March 11, 2022

Achieving Reliable Human Assessment of Open-Domain Dialogue Systems
Tianbo Ji, Yvette Graham, Gareth J. F. Jones, Chenyang Lyu, Qun Liu
Evaluation Method Open Domain Dialogue System Dialogue Evaluation

February 14, 2022

FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment Act Flows
Jianqiao Zhao, Yanyang Li, Wanyu Du, Yangfeng Ji, Dong Yu, Michael R. Lyu, Liwei Wang
Open Domain Dialogue Dialogue Evaluation Dialog Evaluation

December 14, 2021

MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue Evaluation
Chen Zhang, Luis Fernando D'Haro, Thomas Friedrichs, Haizhou Li
Self Training Open Domain Dialogue Augmented Data Dialogue Evaluation Dialogue Benchmark Multi Domain Evaluation

November 16, 2021

User Response and Sentiment Prediction for Automatic Dialogue Evaluation
Sarik Ghazarian, Behnam Hedayatnia, Alexandros Papangelis, Yang Liu, Dilek Hakkani-Tur
Open Domain Dialogue User Response Automatic Evaluation Metric Dialogue Evaluation Sentiment Prediction Dialog Evaluation

November 3, 2021

Automatic Evaluation and Moderation of Open-domain Dialogue Systems
Chen Zhang, João Sedoc, Luis Fernando D'Haro, Rafael Banchs, Alexander Rudnicky
Chatbot Response Content Moderation Automatic Evaluation Open Domain Dialogue System Dialogue Evaluation System Technology Challenge