Evaluation Benchmark

Evaluation benchmarks are crucial for assessing the performance of large language models (LLMs) and other AI systems across diverse tasks, providing objective measures of capabilities and identifying areas for improvement. Current research focuses on developing comprehensive benchmarks that address various challenges, including data contamination, bias, and the evaluation of specific model functionalities (e.g., tool use, image editing, and video analysis), often incorporating novel metrics and datasets. These benchmarks are vital for fostering reproducible research, enabling fair comparisons between models, and ultimately driving the development of more robust and reliable AI systems with real-world applications.

Papers

December 22, 2023

Computational Semantics and Evaluation Benchmark for Interrogative Sentences via Combinatory Categorial Grammar
Hayate Funakura, Koji Mineshima
Question Answering Evaluation Benchmark Categorial Grammar Compositional Semantics Question Mark

November 29, 2023

VBench: Comprehensive Benchmark Suite for Video Generative Models
Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, Xinyuan Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu
Video Generation Evaluation Benchmark Image Generation Model Video Generation Model Benchmark Suite Video Generative

November 24, 2023

Large Language Models as Automated Aligners for benchmarking Vision-Language Models
Yuanfeng Ji, Chongjian Ge, Weikai Kong, Enze Xie, Zhengying Liu, Zhengguo Li, Ping Luo
Vision Language Model Evaluation Benchmark Evaluation Datasets Anthropomorphic Robot

November 16, 2023

Investigating Data Contamination in Modern Benchmarks for Large Language Models
Chunyuan Deng, Yilun Zhao, Xiangru Tang, Mark Gerstein, Arman Cohan
New Benchmark Evaluation Benchmark Data Contamination Benchmark Data Massive Multitask Language Understanding

November 13, 2023

Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime
Haoyu Geng, Hang Ruan, Runzhong Wang, Yang Li, Yang Wang, Lei Chen, Junchi Yan
Optimization Problem Evaluation Benchmark Combinatorial Optimization Problem Predict Then Optimize

November 3, 2023

Don't Make Your LLM an Evaluation Benchmark Cheater
Kun Zhou, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen, Jiawei Han
New Benchmark Medical LLM Model Performance Evaluation Benchmark High Quality Benchmark

October 27, 2023

Evaluating Cross-Domain Text-to-SQL Models and Benchmarks
Mohammadreza Pourreza, Davood Rafiei
New Benchmark Evaluation Benchmark Natural Language Query Text to SQL Benchmark Domain Text to SQL Model Join

October 23, 2023

SuperTweetEval: A Challenging, Unified and Heterogeneous Benchmark for Social Media NLP Research
Dimosthenis Antypas, Asahi Ushio, Francesco Barbieri, Leonardo Neves, Kiamehr Rezaee, Luis Espinosa-Anke, Jiaxin Pei, Jose Camacho-Collados
NLP Field Evaluation Benchmark Unified Alignment Language Modelling

October 12, 2023

LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios
Yazhe Niu, Yuan Pu, Zhenjie Yang, Xueyan Li, Tong Zhou, Jiyuan Ren, Shuai Hu, Hongsheng Li, Yu Liu
Monte Carlo Tree Search Evaluation Benchmark Tree Search Planning

September 28, 2023

LawBench: Benchmarking Legal Knowledge of Large Language Models
Zhiwei Fei, Xiaoyu Shen, Dawei Zhu, Fengzhe Zhou, Zhuo Han, Songyang Zhang, Kai Chen, Zongwen Shen, Jidong Ge
Large Language Model Evaluation Benchmark Multilingual Large Language Model Legal Text LLM Performance Knowledge Memorization

September 22, 2023

In-context Interference in Chat-based Large Language Models
Eric Nuertey Coleman, Julio Hurtado, Vincenzo Lomonaco
Large Language Model Language Model Context Learning MAESTRO Dataset Evaluation Benchmark Overlap Bias

September 19, 2023

MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback
Xingyao Wang, Zihan Wang, Jiateng Liu, Yangyi Chen, Lifan Yuan, Hao Peng, Heng Ji
Large Language Model Evaluation Benchmark Easy Tool Closed Source Large Language Model Language Feedback Multi Turn

September 14, 2023

VDialogUE: A Unified Evaluation Benchmark for Visually-grounded Dialogue
Yunshui Li, Binyuan Hui, Zhaochao Yin, Wanwei He, Run Luo, Yuxing Long, Min Yang, Fei Huang, Yongbin Li
Evaluation Benchmark Dialogue Benchmark Visual Dialog Multi Modal Dialogue Document Grounded Dialogue Capability

September 5, 2023

CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models
Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang, Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu, Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, Yong Yu
Evaluation Benchmark Code Generation Task Programming Task Program Comprehension

August 29, 2023

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation
Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, Jingren Zhou
Large Language Model Text to SQL Evaluation Benchmark LLM Based Text to SQL

August 25, 2023

SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research
Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen, Kai Yu
Evaluation Benchmark Scientific Research

August 7, 2023

APBench: A Unified Benchmark for Availability Poisoning Attacks and Defenses
Tianrui Qin, Xitong Gao, Juanjuan Zhao, Kejiang Ye, Cheng-Zhong Xu
Poisoning Attack Evaluation Benchmark Defense Algorithm Availability Attack

August 4, 2023

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, Lijuan Wang
Large Multimodal Model Evaluation Metric Evaluation Benchmark Multimodal Task LLM Based Evaluation

August 3, 2023

Erasure-based Interaction Network for RGBT Video Object Detection and A Unified Benchmark
Zhengzheng Tu, Qishun Wang, Hongshun Wang, Kunpeng Wang, Chenglong Li
Object Detection Evaluation Benchmark Thermal Image Video Object Detection Interaction Network RGB Thermal

July 10, 2023

A Call to Reflect on Evaluation Practices for Age Estimation: Comparative Analysis of the State-of-the-Art and a Unified Benchmark
Jakub Paplham, Vojtech Franc
Comparative Study State of the Art Evaluation Benchmark Age Estimation Face Alignment Evaluation Practice

Evaluation Benchmark

Papers

Computational Semantics and Evaluation Benchmark for Interrogative Sentences via Combinatory Categorial Grammar

VBench: Comprehensive Benchmark Suite for Video Generative Models

Large Language Models as Automated Aligners for benchmarking Vision-Language Models

Investigating Data Contamination in Modern Benchmarks for Large Language Models

Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime

Don't Make Your LLM an Evaluation Benchmark Cheater

Evaluating Cross-Domain Text-to-SQL Models and Benchmarks

SuperTweetEval: A Challenging, Unified and Heterogeneous Benchmark for Social Media NLP Research

LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios

LawBench: Benchmarking Legal Knowledge of Large Language Models

In-context Interference in Chat-based Large Language Models

MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback

VDialogUE: A Unified Evaluation Benchmark for Visually-grounded Dialogue

CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research

APBench: A Unified Benchmark for Availability Poisoning Attacks and Defenses

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Erasure-based Interaction Network for RGBT Video Object Detection and A Unified Benchmark

A Call to Reflect on Evaluation Practices for Age Estimation: Comparative Analysis of the State-of-the-Art and a Unified Benchmark