LLM Evaluator

LLM evaluators are large language models (LLMs) designed to assess the quality of text generated by other LLMs, addressing the high cost and subjectivity of human evaluation. Current research focuses on improving the accuracy and reliability of these evaluators by mitigating biases (e.g., position bias, token count bias, self-preference), enhancing alignment with human judgments, and exploring diverse architectures such as ensembles of smaller models or hierarchical decomposition of evaluation criteria. This field is crucial for advancing LLM development, enabling more objective benchmarking and facilitating the responsible deployment of LLMs across various applications.

Papers

April 15, 2024

LLM Evaluators Recognize and Favor Their Own Generations
Arjun Panickssery, Samuel R. Bowman, Shi Feng
Large Language Model Self Feedback LLM Evaluator

April 2, 2024

METAL: Towards Multilingual Meta-Evaluation
Rishav Hada, Varun Gumma, Mohamed Ahmed, Kalika Bali, Sunayana Sitaram
LLM Evaluator Meta Evaluation Native Speaker NLP Benchmark

April 1, 2024

FABLES: Evaluating faithfulness and content selection in book-length summarization
Yekyung Kim, Yapei Chang, Marzena Karpinska, Aparna Garimella, Varun Manjunatha, Kyle Lo, Tanya Goyal, Mohit Iyyer
LLM Evaluator Summarization Evaluation Fairy Tale Content Selection

March 25, 2024

Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
Yinhong Liu, Han Zhou, Zhijiang Guo, Ehsan Shareghi, Ivan Vulić, Anna Korhonen, Nigel Collier
Large Language Model Integral Role Pairwise Comparison Human Judgment LLM Evaluator Pairwise Preference Evaluation Task

March 21, 2024

RAmBLA: A Framework for Evaluating the Reliability of LLMs as Assistants in the Biomedical Domain
William James Bolton, Rafael Poyiadzi, Edward R. Morrell, Gabriela van Bergen Gonzalez Bueno, Lea Goetz
Large Language Model New Framework Research Assistant LLM Response LLM Evaluator LLM Powered Writing

February 25, 2024

Likelihood-based Mitigation of Evaluation Bias in Large Language Models
Masanari Ohi, Masahiro Kaneko, Ryuto Koike, Mengsay Loem, Naoaki Okazaki
Language Generation Faulty Negative Mitigation LLM Evaluator

February 24, 2024

HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition
Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
Large Language Model LLM Based Evaluation LLM Evaluator G Eval Evaluation Set Aware Aggregator Hierarchical Decomposition

February 21, 2024

Factual Consistency Evaluation of Summarisation in the Era of Large Language Models
Zheheng Luo, Qianqian Xie, Sophia Ananiadou
Structured Summary New Era Factual Consistency LLM Evaluator Text Evaluation

December 4, 2023

Competition-Level Problems are Effective LLM Evaluators
Yiming Huang, Zhenghao Lin, Xiao Liu, Yeyun Gong, Shuai Lu, Fangyu Lei, Yaobo Liang, Yelong Shen, Chen Lin, Nan Duan, Weizhu Chen
Reasoning Capability Reasoning Ability Reasoning Problem LLM Evaluator Impressive Reasoning Capability

November 14, 2023

Instruction-Following Evaluation for Large Language Models
Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou
Global Evaluation Natural Language Instruction LLM Evaluator

October 30, 2023

Collaborative Evaluation: Exploring the Synergy of Large Language Models and Humans for Open-ended Generation Evaluation
Qintong Li, Leyang Cui, Lingpeng Kong, Wei Bi
Large Language Model Real Human Model Synergy LLM Evaluator Open Ended Generation Open Ended Natural Language Generation Outlier Score Collaborative Evaluation

October 11, 2023

Evaluating Large Language Models at Evaluating Instruction Following
Zhiyuan Zeng, Jiatong Yu, Tianyu Gao, Yu Meng, Tanya Goyal, Danqi Chen
Large Language Model LLM Based Evaluation LLM Evaluator Meta Evaluation Instruction Following Model

September 29, 2023

Split and Merge: Aligning Position Biases in LLM-based Evaluators
Zongjie Li, Chaozheng Wang, Pingchuan Ma, Daoyuan Wu, Shuai Wang, Cuiyun Gao, Yang Liu
Large Language Model Human Evaluation Split and Fit LLM Evaluator Position Bias

September 24, 2023

ALLURE: Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning
Hosein Hasanbeig, Hiteshi Sharma, Leo Betthauser, Felipe Vieira Frujeri, Ida Momennejad
Large Language Model Context Learning Text Modality LLM Based Evaluation Audit Evidence LLM Evaluator

September 9, 2023

Towards LLM-based Autograding for Short Textual Answers
Johannes Schneider, Bernd Schenk, Christina Niklaus, Michaelis Vlachos
Large Language Model Artificial Intelligence Model LLM Evaluator Text Answer

August 3, 2023

Wider and Deeper LLM Networks are Fairer LLM Evaluators
Xinghua Zhang, Bowen Yu, Haiyang Yu, Yangyu Lv, Tingwen Liu, Fei Huang, Hongbo Xu, Yongbin Li
Deep Network LLM Evaluator Deep Narrow

June 15, 2023

KoLA: Carefully Benchmarking World Knowledge of Large Language Models
Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Nianyi Lin, Kaifeng Yun, Linlu Gong, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Bin Xu, Jie Tang, Juanzi Li
Large Language Model Task Specific Knowledge LLM Evaluator World Knowledge LLM Based Metric Knowledge Based System

May 21, 2023

Evaluating Open-QA Evaluation
Cunxiang Wang, Sirui Cheng, Qipeng Guo, Yuanhao Yue, Bowen Ding, Zhikun Xu, Yidong Wang, Xiangkun Hu, Zheng Zhang, Yue Zhang
Question Answering Open Ended LLM Evaluator QA Model Open QA Evaluation

March 29, 2023

G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment
Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu, Chenguang Zhu
Large Language Model Language Generation GPT 4 Natural Language Generation LLM Evaluator G Eval LLM Generated Text Human Alignment