Automatic Evaluation

Automatic evaluation of generated text and other outputs from AI models, particularly large language models (LLMs), aims to create objective and efficient alternatives to expensive and time-consuming human assessment. Current research focuses on developing new metrics and frameworks that better correlate with human judgment, often leveraging LLMs themselves as "judges" or incorporating techniques like instruction tuning and preference optimization. These advancements are crucial for accelerating the development and deployment of AI systems across diverse fields, from scientific protocol generation to medical diagnosis and education, by providing reliable and scalable evaluation methods.

Papers

October 10, 2022

Automatic Evaluation and Analysis of Idioms in Neural Machine Translation
Christos Baziotis, Prashant Mathur, Eva Hasler
General Analysis Neural Machine Translation Automatic Evaluation Translation Process Monolingual Pre Trained Idiomatic Expression Translation Artifact

September 28, 2022

An Automatic Evaluation of the WMT22 General Machine Translation Task
Benjamin Marie
Machine Translation Translation Task Automatic Evaluation Low Resource Language Pair General Translation Task

September 27, 2022

EditEval: An Instruction-Based Benchmark for Text Improvements
Jane Dwivedi-Yu, Timo Schick, Zhengbao Jiang, Maria Lomeli, Patrick Lewis, Gautier Izacard, Edouard Grave, Sebastian Riedel, Fabio Petroni
Text Generation Instruction Tuning Automatic Evaluation Controllable Editing Editing Capability

September 12, 2022

Open-Domain Dialog Evaluation using Follow-Ups Likelihood
Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans
Language Model Human Annotation Human Evaluation Open Domain Automatic Evaluation Open Domain Dialogue

August 31, 2022

The Glass Ceiling of Automatic Evaluation in Natural Language Generation
Pierre Colombo, Maxime Peyrard, Nathan Noiry, Robert West, Pablo Piantanida
Language Generation Human Evaluation Automatic Evaluation Human Judgment Automatic Evaluation Metric Automatic Metric

August 24, 2022

July 1, 2022

Automatic Evaluation of Speaker Similarity
Deja Kamil, Sanchez Ariadna, Roth Julian, Cotescu Marius
Speaker Embeddings Automatic Evaluation Multi Speaker Speaker Similarity

May 13, 2022

AEON: A Method for Automatic Evaluation of NLP Test Cases
Jen-tse Huang, Jianping Zhang, Wenxuan Wang, Pinjia He, Yuxin Su, Michael R. Lyu
Natural Language Processing Practical Method Automatic Evaluation

May 11, 2022

SubER: A Metric for Automatic Evaluation of Subtitle Quality
Patrick Wilken, Panayota Georgakopoulou, Evgeny Matusov
Automatic Evaluation North Star Metric Well Formed Subtitle

May 5, 2022

PREME: Preference-based Meeting Exploration through an Interactive Questionnaire
Negar Arabzadeh, Ali Ahmadvand, Julia Kiseleva, Yang Liu, Ahmed Hassan Awadallah, Ming Zhong, Milad Shokouhi
Automatic Evaluation Standardized Questionnaire Meeting Scenario Online Questionnaire Hybrid Meeting

March 18, 2022

Report from the NSF Future Directions Workshop on Automatic Evaluation of Dialog: Research Directions and Challenges
Shikib Mehri, Jinho Choi, Luis Fernando D'Haro, Jan Deriu, Maxine Eskenazi, Milica Gasic, Kallirroi Georgila, Dilek Hakkani-Tur, Zekang Li, Verena Rieser, Samira Shaikh, David Traum, Yi-Ting Yeh, Zhou Yu, Yizhe Zhang, Chen Zhang
Technical Challenge Future Direction Automatic Evaluation Research Direction Future Work

January 20, 2022

Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction
Daisuke Suzuki, Yujin Takahashi, Ikumi Yamashita, Taichi Aida, Tosho Hirasawa, Michitaka Nakatsuji, Masato Mita, Mamoru Komachi
Construction Industry Automatic Evaluation Quality Estimation Grammatical Error

November 14, 2021

Automatic evaluation of scientific abstracts through natural language processing
Lucas G. O. Lopes, Thales M. A. Vieira, William W. M. Lira
Natural Language Processing Sentiment Analysis Text Classification Automatic Evaluation Abstract Text Scientific Abstract

November 3, 2021

Automatic Evaluation and Moderation of Open-domain Dialogue Systems
Chen Zhang, João Sedoc, Luis Fernando D'Haro, Rafael Banchs, Alexander Rudnicky
Chatbot Response Content Moderation Automatic Evaluation Open Domain Dialogue System Dialogue Evaluation System Technology Challenge