Automatic Evaluation

Automatic evaluation of generated text and other outputs from AI models, particularly large language models (LLMs), aims to create objective and efficient alternatives to expensive and time-consuming human assessment. Current research focuses on developing new metrics and frameworks that better correlate with human judgment, often leveraging LLMs themselves as "judges" or incorporating techniques like instruction tuning and preference optimization. These advancements are crucial for accelerating the development and deployment of AI systems across diverse fields, from scientific protocol generation to medical diagnosis and education, by providing reliable and scalable evaluation methods.

Papers

September 15, 2023

RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue
Zhengliang Shi, Weiwei Sun, Shuo Zhang, Zhen Zhang, Pengjie Ren, Zhaochun Ren
Response Generation Automatic Evaluation Open Domain Dialogue Open Domain Dialogue System Multi Task Learning Framework Dialogue Evaluation

September 6, 2023

Rubric-Specific Approach to Automated Essay Scoring with Augmentation Training
Brian Cho, Youngbin Jang, Jaewoong Yoon
Human Evaluation Automatic Evaluation Essay Scoring Rubric Based Subjective Evaluation

September 5, 2023

An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models
Yusheng Liao, Yutong Meng, Hongcheng Liu, Yanfeng Wang, Yu Wang
Large Language Model Automatic Evaluation Medical Consultation Virtual Doctor Online Healthcare Consultation

August 15, 2023

LLM-Mini-CEX: Automatic Evaluation of Large Language Model for Diagnostic Conversation
Xiaoming Shi, Jie Xu, Jinru Ding, Jiali Pang, Sichen Liu, Shuqing Luo, Xingwei Peng, Lu Lu, Haihong Yang, Mingtao Hu, Tong Ruan, Shaoting Zhang
Large Language Model Automatic Evaluation Small LLM Diagnosis Dialogue

August 14, 2023

The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation
Patrick Fernandes, Daniel Deutsch, Mara Finkelstein, Parker Riley, André F. T. Martins, Graham Neubig, Ankush Garg, Jonathan H. Clark, Markus Freitag, Orhan Firat
Large Language Model Fine Grained Machine Translation Error Feedback Automatic Evaluation Trading Devil Multidimensional Quality Metric

July 19, 2023

CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility
Guohai Xu, Jiayi Liu, Ming Yan, Haotian Xu, Jinghui Si, Zhuoran Zhou, Peng Yi, Xing Gao, Jitao Sang, Rong Zhang, Ji Zhang, Chao Peng, Fei Huang, Jingren Zhou
Large Language Model Human SAFETY Adversarial Prompt Automatic Evaluation Policy Value Chinese Large Language Model Higher Order Responsibility

June 13, 2023

HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation
Qianyu He, Yikai Zhang, Jiaqing Liang, Yuncheng Huang, Yanghua Xiao, Yunwen Chen
Evaluation Metric Dialogue Generation Automatic Evaluation Holistic Approach Simile Knowledge

June 7, 2023

Benchmarking Foundation Models with Language-Model-as-an-Examiner
Yushi Bai, Jiahao Ying, Yixin Cao, Xin Lv, Yuze He, Xiaozhi Wang, Jifan Yu, Kaisheng Zeng, Yijia Xiao, Haozhe Lyu, Jiayin Zhang, Juanzi Li, Lei Hou
Foundation Model Question Answering Automatic Evaluation

May 29, 2023

May 26, 2023

Evaluating Open-Domain Dialogues in Latent Space with Next Sentence Prediction and Mutual Information
Kun Zhao, Bohao Yang, Chenghua Lin, Wenge Rong, Aline Villavicencio, Xiaohui Cui
Latent Space Mutual Information Open Domain Automatic Evaluation Open Domain Dialogue Conditional Variational Sentence Prediction

May 24, 2023

Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References
Tianyi Tang, Hongyuan Lu, Yuchen Eleanor Jiang, Haoyang Huang, Dongdong Zhang, Wayne Xin Zhao, Tom Kocmi, Furu Wei
Large Language Model Language Generation Metric Library Natural Language Generation Automatic Evaluation Higher Quality Reference Semantic Space LLM Based Evaluation

May 10, 2023

Automatic Evaluation of Attribution by Large Language Models
Xiang Yue, Boshi Wang, Ziru Chen, Kai Zhang, Yu Su, Huan Sun
Large Language Model Natural Language Inference Automatic Evaluation Source Attribution Generative Search Engine

April 17, 2023

Toward Auto-evaluation with Confidence-based Category Relation-aware Regression
Jiexin Wang, Jiahao Chen, Bing Su
Automatic Evaluation Local Representation Confusion Probability

March 27, 2023

Large Language Models are Diverse Role-Players for Summarization Evaluation
Ning Wu, Ming Gong, Linjun Shou, Shining Liang, Daxin Jiang
Integral Role Text Summarization Summarization Task Automatic Evaluation Summarization Evaluation Aware Prompting Linguistic Evaluation

March 21, 2023

Automatic evaluation of herding behavior in towed fishing gear using end-to-end training of CNN and attention-based networks
Orri Steinn Guðfinnsson, Týr Vilhjálmsson, Martin Eineborg, Torfi Thorhallsson
Action Recognition CNN Network Automatic Evaluation Herding Algorithm Attention Based Network End to End Training Two Stream Multi Class Classification Task ANGLEr Behavior

November 29, 2022

Measuring the Measuring Tools: An Automatic Evaluation of Semantic Metrics for Text Corpora
George Kour, Samuel Ackerman, Orna Raz, Eitan Farchi, Boaz Carmeli, Ateret Anaby-Tavor
Semantic Similarity Automatic Evaluation Natural Language Processing Application Distribution Mismatch Corpus Similarity Measure

November 19, 2022

Bipartite-play Dialogue Collection for Practical Automatic Evaluation of Dialogue Systems
Shiki Sato, Yosuke Kishinami, Hiroaki Sugiyama, Reina Akama, Ryoko Tokuhisa, Jun Suzuki
Dialogue System Automatic Evaluation Dialogue Evaluation Dialogue Act Dialogue System Research

November 18, 2022

DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation
Yuhang Lai, Chengxi Li, Yiming Wang, Tianyi Zhang, Ruiqi Zhong, Luke Zettlemoyer, Scott Wen-tau Yih, Daniel Fried, Sida Wang, Tao Yu
New Benchmark Benchmark Study Automatic Evaluation API Usage Code Generation Benchmark Big Data Problem Data Science Code Generation

November 15, 2022

Automatic Evaluation of Excavator Operators using Learned Reward Functions
Pranav Agarwal, Marek Teichmann, Sheldon Andrews, Samira Ebrahimi Kahou
Reward Function Automatic Evaluation Task Specific Reward Reward Prediction