Automatic Evaluation Metric

Automatic evaluation metrics aim to objectively assess the quality of generated text or other outputs, such as images or radiology reports, by quantifying their similarity to human-created references. Current research focuses on developing metrics that are robust to common generation flaws like hallucinations, better correlate with human judgments, and are adaptable across diverse tasks and languages, often leveraging large language models (LLMs) for improved performance. These advancements are crucial for accelerating the development and deployment of natural language generation and other AI systems by providing efficient and reliable evaluation methods, reducing the reliance on expensive and time-consuming human evaluations.

Papers

December 19, 2022

LENS: A Learnable Evaluation Metric for Text Simplification
Mounica Maddela, Yao Dou, David Heineman, Wei Xu
Machine Translation Large Corpus Text Simplification Modern Language Model Lesion Detection Automatic Evaluation Metric

November 21, 2022

Evaluating the Knowledge Dependency of Questions
Hyeongdon Moon, Yoonseok Yang, Jamin Shin, Hangyeol Yu, Seunghyun Lee, Myeongho Jeong, Juneyoung Park, Minsam Kim, Seungtaek Choi
Question Answering Yes No Question Automatic Evaluation Metric Multiple Choice Question Generation

November 3, 2022

Revisiting Grammatical Error Correction Evaluation and Beyond
Peiyuan Gong, Xuebo Liu, Heyan Huang, Min Zhang
Grammatical Error Correction Pre Training Model Automatic Evaluation Metric

October 22, 2022

Varifocal Question Generation for Fact-checking
Nedjma Ousidhoum, Zhangdie Yuan, Andreas Vlachos
Fact Checking Question Generation Automatic Evaluation Metric Question Generation Method

October 17, 2022

Social Biases in Automatic Evaluation Metrics for NLG
Mingqi Gao, Xiaojun Wan
Word Embeddings Social Bias Gender Information Automatic Evaluation Metric

October 14, 2022

BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation
Tianxiang Sun, Junliang He, Xipeng Qiu, Xuanjing Huang
Text Generation Social Bias Automatic Evaluation Metric Pre Trained Language

October 1, 2022

FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation
Parker Riley, Timothy Dozat, Jan A. Botha, Xavier Garcia, Dan Garrette, Jason Riesa, Orhan Firat, Noah Constant
New Benchmark Context Aware Text Style Transfer Automatic Evaluation Metric Shot Translation Document Translation

August 31, 2022

The Glass Ceiling of Automatic Evaluation in Natural Language Generation
Pierre Colombo, Maxime Peyrard, Nathan Noiry, Robert West, Pablo Piantanida
Language Generation Human Evaluation Automatic Evaluation Human Judgment Automatic Evaluation Metric Automatic Metric

March 25, 2022

What is wrong with you?: Leveraging User Sentiment for Automatic Dialog Evaluation
Sarik Ghazarian, Behnam Hedayatnia, Alexandros Papangelis, Yang Liu, Dilek Hakkani-Tur
Open Domain User Sentiment Open Domain Dialogue Human Annotated Automatic Evaluation Metric Dialogue Evaluation

March 17, 2022

RoMe: A Robust Metric for Evaluating Natural Language Generation
Md Rashad Al Hasan Rony, Liubov Kovriguina, Debanjan Chaudhuri, Ricardo Usbeck, Jens Lehmann
Language Understanding Language Generation Natural Language Generation Robustness Evaluation Generated Text Automatic Evaluation Metric Quality Sentence

March 11, 2022

Active Evaluation: Efficient NLG Evaluation with Few Pairwise Comparisons
Akash Kumar Mohankumar, Mitesh M. Khapra
Pairwise Comparison Automatic Evaluation Metric NLG System NLG Evaluation Assessment Design

January 4, 2022

StyleM: Stylized Metrics for Image Captioning Built with Contrastive N-grams
Chengxi Li, Brent Harrison
Image Captioning Automatic Evaluation Metric Descriptive Caption Stylistic Metric

November 16, 2021

User Response and Sentiment Prediction for Automatic Dialogue Evaluation
Sarik Ghazarian, Behnam Hedayatnia, Alexandros Papangelis, Yang Liu, Dilek Hakkani-Tur
Open Domain Dialogue User Response Automatic Evaluation Metric Dialogue Evaluation Sentiment Prediction Dialog Evaluation