Evaluation Benchmark

Evaluation benchmarks are crucial for assessing the performance of large language models (LLMs) and other AI systems across diverse tasks, providing objective measures of capabilities and identifying areas for improvement. Current research focuses on developing comprehensive benchmarks that address various challenges, including data contamination, bias, and the evaluation of specific model functionalities (e.g., tool use, image editing, and video analysis), often incorporating novel metrics and datasets. These benchmarks are vital for fostering reproducible research, enabling fair comparisons between models, and ultimately driving the development of more robust and reliable AI systems with real-world applications.

Papers

July 1, 2024

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents
Shihan Deng, Weikai Xu, Hongda Sun, Wei Liu, Tao Tan, Jianfeng Liu, Ang Li, Jian Luan, Bin Wang, Rui Yan, Shuo Shang
LLM Based Evaluation Benchmark LLM Based Agent Novel Benchmark Mobile Agent Evaluation Task

June 30, 2024

GC-Bench: An Open and Unified Benchmark for Graph Condensation
Qingyun Sun, Ziying Chen, Beining Yang, Cheng Ji, Xingcheng Fu, Sheng Zhou, Hao Peng, Jianxin Li, Philip S. Yu
Evaluation Benchmark Graph Condensation Large Scale Graph Datasets Graph Condensation Method

June 29, 2024

Benchmark Evaluation of Image Fusion algorithms for Smartphone Camera Capture
Lucas N. Kirsten
Image Quality Image Fusion Evaluation Benchmark Smartphone Camera Image Quality Metric

June 23, 2024

AudioBench: A Universal Benchmark for Audio Large Language Models
Bin Wang, Xunlong Zou, Geyu Lin, Shuo Sun, Zhuohan Liu, Wenyu Zhang, Zhengyuan Liu, AiTi Aw, Nancy F. Chen
Large Language Model Language Model Spoken Language Understanding Evaluation Benchmark Audio Visual Scene

June 20, 2024

June 18, 2024

IPEval: A Bilingual Intellectual Property Agency Consultation Evaluation Benchmark for Large Language Models
Qiyao Wang, Jianguo Huang, Shule Lu, Yuan Lin, Kan Xu, Liang Yang, Hongfei Lin
Large Language Model Evaluation Benchmark Intellectual Property

June 17, 2024

From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline
Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica
Language Model Evaluation Benchmark Textual Prompt LLM Annotation Crowd Sourced Data Arena Hard High Quality Benchmark

June 14, 2024

Quantifying Variance in Evaluation Benchmarks
Lovish Madaan, Aaditya K. Singh, Rylan Schaeffer, Andrew Poulton, Sanmi Koyejo, Pontus Stenetorp, Sharan Narang, Dieuwke Hupkes
Large Language Model LLM Based Evaluation Benchmark Item Response Theory

June 13, 2024

June 6, 2024

June 5, 2024

StatBot.Swiss: Bilingual Open Data Exploration in Natural Language
Farhad Nooralahzadeh, Yi Zhang, Ellery Smith, Sabine Maennel, Cyril Matthey-Doret, Raphaël de Fondville, Kurt Stockinger
Natural Language Text to SQL Evaluation Benchmark Bilingual Data

June 3, 2024

Alignment-Free RGBT Salient Object Detection: Semantics-guided Asymmetric Correlation Network and A Unified Benchmark
Kunpeng Wang, Danying Lin, Chenglong Li, Zhengzheng Tu, Bin Luo
Image Pair Evaluation Benchmark SALient Object Detection Saliency Prediction Correlation Network Cross Modal Correlation

May 31, 2024

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
Chaoyou Fu, Yuhan Dai, Yongdong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun
Multimodal LLM Multi Modal Large Language Model Evaluation Benchmark Multi Modal Data Video Analysis

May 25, 2024

ConStat: Performance-Based Contamination Detection in Large Language Models
Jasper Dekoninck, Mark Niklas Müller, Martin Vechev
Large Language Model Evaluation Benchmark Data Contamination Contamination Detection

May 2, 2024

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models
Seungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo
Evaluation Benchmark LLM Evaluator Open Source Language Model Avatar Animation

April 19, 2024

CT-ADE: An Evaluation Benchmark for Adverse Drug Event Prediction from Clinical Trial Results
Anthony Yazdani, Alban Bornet, Philipp Khlebnikov, Boya Zhang, Hossein Rouhizadeh, Poorya Amini, Douglas Teodoro
Evaluation Benchmark Clinical Trial Drug Feature Adverse Drug CT Dataset Adverse Drug Event ADMET Prediction

April 17, 2024

Towards Data-Centric Automatic R&D
Haotian Chen, Xinjie Shen, Zeqi Ye, Wenjun Feng, Haoxue Wang, Xiao Yang, Xu Yang, Weiqing Liu, Jiang Bian
Evaluation Benchmark