LLM Benchmark

LLM benchmarking aims to objectively evaluate the capabilities of large language models across diverse tasks, addressing limitations of existing methods like static datasets and potential biases in human or LLM evaluation. Current research focuses on developing more robust and dynamic benchmarks, including those based on real-world interactions, game-based competitions, and knowledge-grounded evaluations, often incorporating techniques like prompt engineering and multi-agent coordination. These efforts are crucial for fostering the responsible development and deployment of LLMs, improving model transparency, and guiding future research directions in AI.

Papers

June 3, 2024

MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures
Jinjie Ni, Fuzhao Xue, Xiang Yue, Yuntian Deng, Mahir Shah, Kabir Jain, Graham Neubig, Yang You
Large Language Model Crowded Environment LLM Benchmark Meta Evaluation Deriving Wisdom Vision Benchmark Input Mixture LLM Based Metric

May 28, 2024

Spanish and LLM Benchmarks: is MMLU Lost in Translation?
Irene Plaza, Nina Melero, Cristina del Pozo, Javier Conde, Pedro Reviriego, Marina Mayor-Rocher, María Grandury
View Translation LLM Benchmark Continuous Spanish LLM Performance Massive Multitask Language Understanding

May 27, 2024

Efficient multi-prompt evaluation of LLMs
Felipe Maia Polo, Ronald Xu, Lucas Weber, Mírian Silva, Onkar Bhardwaj, Leshem Choshen, Allysson Flavio Melo de Oliveira, Yuekai Sun, Mikhail Yurochkin
New Benchmark Medical LLM Quantile Regression LLM Benchmark Prompt Based Prompt Based Method

May 8, 2024

Preble: Efficient Distributed Prompt Scheduling for LLM Serving
Vikranth Srivatsa, Zijian He, Reyna Abhyankar, Dongming Li, Yiying Zhang
Large Language Model High Efficiency Open Source LLM LLM Benchmark Sharing Matter LLM Generated Solution Feature Reuse

April 16, 2024

MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents
Liyan Tang, Philippe Laban, Greg Durrett
Medical LLM Fact Checking Synthetic Training Data LLM Benchmark Document Grounded Self Checking Grounding Document

April 10, 2024

CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge
Yu Ying Chiu, Liwei Jiang, Maria Antoniak, Chan Young Park, Shuyue Stella Li, Mehar Bhatia, Sahithya Ravi, Yulia Tsvetkov, Vered Shwartz, Yejin Choi
Large Language Model Red Teaming LLM Benchmark Lack Thereof

April 2, 2024

PATCH! Psychometrics-AssisTed benCHmarking of Large Language Models: A Case Study of Proficiency in 8th Grade Mathematics
Qixiang Fang, Daniel L. Oberski, Dong Nguyen
Language Model Case Study Mathematical Reasoning LLM Benchmark Psychometric Property Single Simple Patch Psychometrics Benchmark

March 13, 2024

LMStyle Benchmark: Evaluating Text Style Transfer for Chatbots
Jianlin Chen
Chatbot Response LLM Benchmark Text Style Transfer Conversational Model Traditional Evaluation Metric

March 8, 2024

ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models
Jio Oh, Soyeon Kim, Junseok Seo, Jindong Wang, Ruochen Xu, Xing Xie, Steven Euijong Whang
Large Language Model New Benchmark LLM Benchmark Relational Database Entity Relation Hallucination Evaluation Benchmark Hallucination Benchmark

February 29, 2024

February 25, 2024

EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries
Sunjun Kweon, Jiyoun Kim, Heeyoung Kwak, Dongchul Cha, Hangyul Yoon, Kwanghyun Kim, Jeewon Yang, Seunghyun Won, Edward Choi
Electronic Health Record Medical Information Mart for Intensive LLM Benchmark Real World Clinical Discharge Summary

February 23, 2024

KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models
Zhuohao Yu, Chang Gao, Wenjin Yao, Yidong Wang, Wei Ye, Jindong Wang, Xing Xie, Yue Zhang, Shikun Zhang
Large Language Model LLM Benchmark Russian Language Interactive Evaluation Contaminated Data

February 19, 2024

Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark
Jian Wu, Linyi Yang, Zhen Wang, Manabu Okumura, Yue Zhang
Medical LLM Multi Hop Reasoning Multi Hop Question Answering LLM Benchmark Multi Hop QA Core Knowledge

February 15, 2024

Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence
Timothy R. McIntosh, Teo Susnjak, Nalin Arachchilage, Tong Liu, Paul Watters, Malka N. Halgamuge
Large Language Model Generative Artificial Intelligence New Era LLM Based Evaluation LLM Benchmark Evaluation Framework

February 14, 2024

Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking
Yi Fung, Ruining Zhao, Jae Doo, Chenkai Sun, Heng Ji
LLM Benchmark Cross Cultural Cultural Commonsense

February 7, 2024

February 3, 2024

More Agents Is All You Need
Junyou Li, Qin Zhang, Yangbin Yu, Qiang Fu, Deheng Ye
Large Language Model LLM Benchmark Voting Method

January 9, 2024

DebugBench: Evaluating Debugging Capability of Large Language Models
Runchu Tian, Yining Ye, Yujia Qin, Xin Cong, Yankai Lin, Yinxu Pan, Yesai Wu, Haotian Hui, Weichuan Liu, Zhiyuan Liu, Maosong Sun
Code Generation LLM Benchmark Code Debugging