Evaluation Benchmark

Evaluation benchmarks are crucial for assessing the performance of large language models (LLMs) and other AI systems across diverse tasks, providing objective measures of capabilities and identifying areas for improvement. Current research focuses on developing comprehensive benchmarks that address various challenges, including data contamination, bias, and the evaluation of specific model functionalities (e.g., tool use, image editing, and video analysis), often incorporating novel metrics and datasets. These benchmarks are vital for fostering reproducible research, enabling fair comparisons between models, and ultimately driving the development of more robust and reliable AI systems with real-world applications.

Papers

June 29, 2023

RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark
Federico Berto, Chuanbo Hua, Junyoung Park, Laurin Luttmann, Yining Ma, Fanchen Bu, Jiarui Wang, Haoran Ye, Minsu Kim, Sanghyeok Choi, Nayeli Gast Zepeda, André Hottung, Jianan Zhou, Jieyi Bi, Yu Hu, Fei Liu, Hyeonah Kim, Jiwoo Son, Haeyeon Kim, Davide Angioni, Wouter Kool, Zhiguang Cao, Qingfu Zhang, Joungho Kim, Jie Zhang, Kijung Shin, Cathy Wu, Sungsoo Ahn, Guojie Song, Changhyun Kwon, Kevin Tierney, Lin Xie, Jinkyoo Park
Reinforcement Learning Deep Reinforcement Learning Evaluation Benchmark

June 24, 2023

My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models and Evaluation Benchmarks
Tanmay Chavan, Omkar Gokhale, Aditya Kane, Shantanu Patankar, Raviraj Joshi
Pretrained Language Model Hate Speech Detection Evaluation Benchmark Code Mixed Marathi Corpus

June 23, 2023

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Yunsheng Wu, Rongrong Ji
Multimodal Large Language Model Evaluation Benchmark Multimodal Task

June 20, 2023

BMAD: Benchmarks for Medical Anomaly Detection
Jinan Bao, Hanshi Sun, Hanqiu Deng, Yinsheng He, Zhaoxiang Zhang, Xingyu Li
Anomaly Detection New Benchmark Medical Image Evaluation Benchmark Medical Benchmark Medical Anomaly Detection

June 18, 2023

OpenDataVal: a Unified Benchmark for Data Valuation
Kevin Fu Jiang, Weixin Liang, James Zou, Yongchan Kwon
Evaluation Benchmark Data Valuation

June 15, 2023

LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models
Peng Xu, Wenqi Shao, Kaipeng Zhang, Peng Gao, Shuo Liu, Meng Lei, Fanqing Meng, Siyuan Huang, Yu Qiao, Ping Luo
Zero Shot Large Vision Language Model Large Multimodal Model Evaluation Benchmark Multimodal Capability Multimodal Vision Language Model

June 8, 2023

May 25, 2023

UNITE: A Unified Benchmark for Text-to-SQL Evaluation
Wuwei Lan, Zhiguo Wang, Anuj Chauhan, Henghui Zhu, Alexander Li, Jiang Guo, Sheng Zhang, Chung-Wei Hang, Joseph Lilien, Yiqun Hu, Lin Pan, Mingwen Dong, Jun Wang, Jiarong Jiang, Stephen Ash, Vittorio Castelli, Patrick Ng, Bing Xiang
Text to SQL Evaluation Benchmark Text to SQL Parser Text to SQL Benchmark

May 19, 2023

An Approach to Multiple Comparison Benchmark Evaluations that is Stable Under Manipulation of the Comparate Set
Ali Ismail-Fawaz, Angus Dempster, Chang Wei Tan, Matthieu Herrmann, Lynn Miller, Daniel F. Schmidt, Stefano Berretti, Jonathan Weber, Maxime Devanne, Germain Forestier, Geoffrey I. Webb
Constructive Approach Strategic Manipulation Evaluation Benchmark Pairwise Comparison Similar Pair Meta Evaluation

May 17, 2023

Stop Uploading Test Data in Plain Text: Practical Strategies for Mitigating Data Contamination by Evaluation Benchmarks
Alon Jacovi, Avi Caciularu, Omer Goldman, Yoav Goldberg
Training Data Evaluation Benchmark Real Text Word Data Contamination Clean Data Test Data

May 14, 2023

Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction
Danyang Zhang, Zhennan Shen, Rui Xie, Situo Zhang, Tianbao Xie, Zihan Zhao, Siyuan Chen, Lu Chen, Hongshen Xu, Ruisheng Cao, Kai Yu
Open World Evaluation Benchmark User Interface Agent LLM Assisted Decision Making

February 9, 2023

ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills
Jiayuan Gu, Fanbo Xiang, Xuanlin Li, Zhan Ling, Xiqiang Liu, Tongzhou Mu, Yihe Tang, Stone Tao, Xinyue Wei, Yunchao Yao, Xiaodi Yuan, Pengwei Xie, Zhiao Huang, Rui Chen, Hao Su
Manipulation Task Evaluation Benchmark Embodied AI Manipulation Skill Soft Body Manipulation

January 5, 2023

Accuracy and Fidelity Comparison of Luna and DALL-E 2 Diffusion-Based Image Generation Systems
Michael Cahyadi, Muhammad Rafi, William Shan, Jurike Moniaga, Henry Lucky
Training Data Evaluation Benchmark Diffusion Based Image Generation Fidelity Reward Fidelity Metric

November 23, 2022

Open-vocabulary Attribute Detection
María A. Bravo, Sudhanshu Mittal, Simon Ging, Thomas Brox
Open Vocabulary Evaluation Benchmark Attribute Recognition

November 22, 2022

Benchmarking Evaluation Metrics for Code-Switching Automatic Speech Recognition
Injy Hamed, Amir Hussein, Oumnia Chellah, Shammur Chowdhury, Hamdy Mubarak, Sunayana Sitaram, Nizar Habash, Ahmed Ali
Automatic Speech Recognition Evaluation Benchmark Multilingual Automatic Speech Recognition Code Switching Speech Recognition Inter Annotator Agreement

November 15, 2022

Perona: Robust Infrastructure Fingerprinting for Resource-Efficient Big Data Analytics
Dominik Scheinert, Soeren Becker, Jonathan Bader, Lauritz Thamsen, Jonathan Will, Odej Kao
Evaluation Benchmark Big Data Resource Optimization

October 31, 2022

Lila: A Unified Benchmark for Mathematical Reasoning
Swaroop Mishra, Matthew Finlayson, Pan Lu, Leonard Tang, Sean Welleck, Chitta Baral, Tanmay Rajpurohit, Oyvind Tafjord, Ashish Sabharwal, Peter Clark, Ashwin Kalyan
Mathematical Reasoning Evaluation Benchmark Reasoning Benchmark Single Task

October 24, 2022

DaXBench: Benchmarking Deformable Object Manipulation with Differentiable Physics
Siwei Chen, Yiqing Xu, Cunjun Yu, Linfeng Li, Xiao Ma, Zhongwen Xu, David Hsu
Evaluation Benchmark Differentiable Physic Deformable Object Manipulation

October 6, 2022

SynBench: Task-Agnostic Benchmarking of Pretrained Representations using Synthetic Data
Ching-Yun Ko, Pin-Yu Chen, Jeet Mohapatra, Payel Das, Luca Daniel
Synthetic Data Pre Trained Model Evaluation Benchmark Pre Trained Vision Transformer Pre Trained Representation Task Agnostic Representation Pretrained Model

Evaluation Benchmark

Papers

RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark

My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models and Evaluation Benchmarks

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

BMAD: Benchmarks for Medical Anomaly Detection

OpenDataVal: a Unified Benchmark for Data Valuation

LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models

PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

UNITE: A Unified Benchmark for Text-to-SQL Evaluation

An Approach to Multiple Comparison Benchmark Evaluations that is Stable Under Manipulation of the Comparate Set

Stop Uploading Test Data in Plain Text: Practical Strategies for Mitigating Data Contamination by Evaluation Benchmarks

Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction

ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills

Accuracy and Fidelity Comparison of Luna and DALL-E 2 Diffusion-Based Image Generation Systems

Open-vocabulary Attribute Detection

Benchmarking Evaluation Metrics for Code-Switching Automatic Speech Recognition

Perona: Robust Infrastructure Fingerprinting for Resource-Efficient Big Data Analytics

Lila: A Unified Benchmark for Mathematical Reasoning

DaXBench: Benchmarking Deformable Object Manipulation with Differentiable Physics

SynBench: Task-Agnostic Benchmarking of Pretrained Representations using Synthetic Data