Evaluation Benchmark

Evaluation benchmarks are crucial for assessing the performance of large language models (LLMs) and other AI systems across diverse tasks, providing objective measures of capabilities and identifying areas for improvement. Current research focuses on developing comprehensive benchmarks that address various challenges, including data contamination, bias, and the evaluation of specific model functionalities (e.g., tool use, image editing, and video analysis), often incorporating novel metrics and datasets. These benchmarks are vital for fostering reproducible research, enabling fair comparisons between models, and ultimately driving the development of more robust and reliable AI systems with real-world applications.

Papers

October 10, 2024

MELO: An Evaluation Benchmark for Multilingual Entity Linking of Occupations
Federico Retyk, Luis Gasco, Casimiro Pio Carrino, Daniel Deniz, Rabih Zbib
Entity Mention Evaluation Benchmark Multilingual Lexicon Occupation Similarity Word Model Cross Lingual Entity

October 9, 2024

Benchmarking Data Heterogeneity Evaluation Approaches for Personalized Federated Learning
Zhilong Li, Xiaohu Wu, Xiaoli Tang, Tiantian He, Yew-Soon Ong, Mengmeng Chen, Qiqi Liu, Qicheng Lao, Han Yu
Model Training Data Heterogeneity Personalized Federated Learning Evaluation Benchmark Statistical Heterogeneity Benchmark Framework

October 4, 2024

How much can we forget about Data Contamination?
Sebastian Bordt, Suraj Srinivas, Valentyn Boreiko, Ulrike von Luxburg
Large Language Model Training Data Evaluation Benchmark Data Contamination Benchmark Data

October 2, 2024

CALF: Benchmarking Evaluation of LFQA Using Chinese Examinations
Yuchen Fan, Xin Zhong, Heng Zhou, Yuchen Zhang, Mingyu Liang, Chengxing Xie, Ermo Hua, Ning Ding, Bowen Zhou
Question Answering Evaluation Benchmark Long Form Answer Long Form Question Answering

September 29, 2024

GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks
Rongchang Li, Minjie Chen, Chang Hu, Han Chen, Wenpeng Xing, Meng Han
Evaluation Benchmark Prompt Injection Attack Model Based Shielding

September 16, 2024

Trustworthiness in Retrieval-Augmented Generation Systems: A Survey
Yujia Zhou, Yan Liu, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Zheng Liu, Chaozhuo Li, Zhicheng Dou, Tsung-Yi Ho, Philip S. Yu
Timely Survey Retrieval Augmented Generation Evaluation Benchmark Open Source Model

September 15, 2024

EditBoard: Towards A Comprehensive Evaluation Benchmark for Text-based Video Editing Models
Yupeng Chen, Penglin Chen, Xiaoyu Zhang, Yixian Huang, Qian Xie
Generated Content Evaluation Benchmark Video Editing Benchmark Task

September 8, 2024

READoc: A Unified Benchmark for Realistic Document Structured Extraction
Zichao Li, Aizier Abulaiti, Yaojie Lu, Xuanang Chen, Jia Zheng, Hongyu Lin, Xianpei Han, Le Sun
Raw Data MAESTRO Dataset Evaluation Benchmark Structured Document Document Analysis Structured Information Extraction

August 26, 2024

I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing
Yiwei Ma, Jiayi Ji, Ke Ye, Weihuang Lin, Zhibin Wang, Yonghan Zheng, Qiang Zhou, Xiaoshuai Sun, Rongrong Ji
Image Editing Evaluation Benchmark Comprehensive Benchmark

August 12, 2024

AdTEC: A Unified Benchmark for Evaluating Text Quality in Search Engine Advertising
Peinan Zhang, Yusuke Sakai, Masato Mita, Hiroki Ouchi, Taro Watanabe
Pre Trained Language Model Evaluation Benchmark Natural Language Generation Text Quality Sponsored Search

August 8, 2024

July 29, 2024

July 21, 2024

BIGbench: A Unified Benchmark for Social Bias in Text-to-Image Generative Models Based on Multi-modal LLM
Hanjun Luo, Haoyu Huang, Ziye Deng, Xuecheng Liu, Ruizhe Chen, Zuozhu Liu
Generative Model Image Generation Social Bias Evaluation Benchmark Text to Image Generative Model Multi Modal LLM Improved BIGbench V2

July 18, 2024

Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench
Yotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen
New Benchmark Evaluation Benchmark Practical Guide Language Modeling LLM Benchmark High Quality Benchmark

July 15, 2024

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation
Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung
Large Language Model Evaluation Benchmark Automatic Evaluation LLM Evaluator Bias Benchmark

July 7, 2024

ElecBench: a Power Dispatch Evaluation Benchmark for Large Language Models
Xiyuan Zhou, Huan Zhao, Yuheng Cheng, Yuji Cao, Gaoqi Liang, Guolong Liu, Wenxuan Liu, Yan Xu, Junhua Zhao
Evaluation Benchmark Electricity Market Power Dispatch

July 6, 2024

MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning
Min Zhang, Xian Fu, Jianye Hao, Peilong Han, Hao Zhang, Lei Shi, Hongyao Tang, Yan Zheng
Task Planning Evaluation Benchmark Embodied AI Step by Step Reasoning AI Community Multi Modal Foundation Model

July 2, 2024

CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models
Ying Nie, Binwei Yan, Tianyu Guo, Hao Liu, Haoyu Wang, Wei He, Binfan Zheng, Weihao Wang, Qiang Li, Weijian Sun, Yunhe Wang, Dacheng Tao
Large Language Model NLP Task Evaluation Benchmark Chinese Benchmark

Evaluation Benchmark

Papers

MELO: An Evaluation Benchmark for Multilingual Entity Linking of Occupations

Benchmarking Data Heterogeneity Evaluation Approaches for Personalized Federated Learning

How much can we forget about Data Contamination?

CALF: Benchmarking Evaluation of LFQA Using Chinese Examinations

GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks

Trustworthiness in Retrieval-Augmented Generation Systems: A Survey

EditBoard: Towards A Comprehensive Evaluation Benchmark for Text-based Video Editing Models

READoc: A Unified Benchmark for Realistic Document Structured Extraction

I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing

AdTEC: A Unified Benchmark for Evaluating Text Quality in Search Engine Advertising

FedAD-Bench: A Unified Benchmark for Federated Unsupervised Anomaly Detection in Tabular Data

ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities

UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation

Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks

BIGbench: A Unified Benchmark for Social Bias in Text-to-Image Generative Models Based on Multi-modal LLM

Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

ElecBench: a Power Dispatch Evaluation Benchmark for Large Language Models

MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning

CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models