Benchmark Data

Benchmark datasets are crucial for evaluating the performance of machine learning models, particularly large language models (LLMs), but their reliability is threatened by data contamination—the unintentional inclusion of benchmark data in training sets. Current research focuses on developing robust evaluation methods to mitigate this issue, including techniques like dynamic variable perturbation and inference-time decontamination, as well as creating more realistic and comprehensive benchmarks that better reflect real-world applications. These efforts are vital for ensuring the accurate assessment of model capabilities and fostering the responsible development of AI systems across diverse domains, from natural language processing to medical image analysis.

Papers

December 23, 2024

SCBench: A Sports Commentary Benchmark for Video LLMs
Kuangzhi Ge, Lingjun Chen, Kevin Zhang, Yulin Luo, Tianyu Shi, Liaoyuan Fan, Xiang Li, Guanqun Wang, Shanghang Zhang
Large Language Model Video LLM Benchmark Data

October 31, 2024

Benchmark Data Repositories for Better Benchmarking
Rachel Longjohn, Markelle Kelly, Sameer Singh, Padhraic Smyth
Machine Learning Benchmark Platform Benchmark Datasets Benchmark Score Benchmark Data

October 4, 2024

How much can we forget about Data Contamination?
Sebastian Bordt, Suraj Srinivas, Valentyn Boreiko, Ulrike von Luxburg
Large Language Model Training Data Evaluation Benchmark Data Contamination Benchmark Data

September 12, 2024

DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?
Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu
Benchmark Data Data Analysis Agent

June 25, 2024

VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation
Kun Qian, Shunji Wan, Claudia Tang, Youzhi Wang, Xuanming Zhang, Maximillian Chen, Zhou Yu
Large Language Model Language Model Data Contamination Small Perturbation Benchmark Data

June 20, 2024

Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation
Qin Zhu, Qingyuan Cheng, Runyu Peng, Xiaonan Li, Tengxiao Liu, Ru Peng, Xipeng Qiu, Xuanjing Huang
Large Language Model New Benchmark Inference Time Benchmark Data Benchmark Design

June 6, 2024

May 16, 2024

Global Benchmark Database
Markus Iser, Christoph Jabs
New Benchmark Benchmark Data Efficient Compilation

April 29, 2024

Benchmarking Benchmark Leakage in Large Language Models
Ruijie Xu, Zengzhi Wang, Run-Ze Fan, Pengfei Liu
N Gram Opaque Machine Learning Benchmark Data Public Benchmark

January 25, 2024

Knowledge Guided Entity-aware Video Captioning and A Basketball Benchmark
Zeyu Xi, Ge Shi, Xuefen Li, Junchi Yan, Zun Li, Lifang Wu, Zilin Liu, Liang Wang
Video Captioning Multimodal Knowledge Graph Benchmark Data

November 16, 2023

Investigating Data Contamination in Modern Benchmarks for Large Language Models
Chunyuan Deng, Yilun Zhao, Xiangru Tang, Mark Gerstein, Arman Cohan
New Benchmark Evaluation Benchmark Data Contamination Benchmark Data Massive Multitask Language Understanding

November 15, 2023

Toulouse Hyperspectral Data Set: a benchmark data set to assess semi-supervised spectral representation learning and pixel-wise classification techniques
Romain Thoreau, Laurent Risser, Véronique Achard, Béatrice Berthelot, Xavier Briottet
Hyperspectral Image Hyperspectral Datasets Benchmark Data Pixel Wise Classification

November 8, 2023

Rethinking Benchmark and Contamination for Language Models with Rephrased Samples
Shuo Yang, Wei-Lin Chiang, Lianmin Zheng, Joseph E. Gonzalez, Ion Stoica
Language Model External Sample Benchmark Data Tool Usage Evaluation Benchmark

September 8, 2023

Rink-Agnostic Hockey Rink Registration
Jia Cheng Shang, Yuhao Chen, Mohammad Javad Shafiee, David A. Clausi
Rigid Registration Benchmark Data Player Tracking

August 7, 2023

Doubly Robust Estimator for Off-Policy Evaluation with Large Action Spaces
Tatsuhiro Shimizu, Laura Forastiere
Action Space Policy Evaluation Robust Estimation Benchmark Data Inverse Propensity Contextual Bandit Setting

June 28, 2023

GoalieNet: A Multi-Stage Network for Joint Goalie, Equipment, and Net Pose Estimation in Ice Hockey
Marjan Shahi, David Clausi, Alexander Wong
Human Pose Pose Estimation Network Benchmark Data Stage Network Professional Goalkeeper

June 21, 2023

Benchmark data to study the influence of pre-training on explanation performance in MR image classification
Marta Oliveira, Rick Wilming, Benedict Clark, Céline Budding, Fabian Eitel, Kerstin Ritter, Stefan Haufe
Convolutional Neural Network Transfer Learning Magnetic Resonance Imaging External Influence Benchmark Data Explanation Performance

February 9, 2023

Machine Learning Capability: A standardized metric using case difficulty with applications to individualized deployment of supervised machine learning
Adrienne Kline, Joon Lee
Machine Learning Financial Application Case Relevance Supervised Machine Learning Item Response Theory Benchmark Data

November 21, 2022

OPTION: OPTImization Algorithm Benchmarking ONtology
Ana Kostovska, Diederick Vermetten, Carola Doerr, Saso Džeroski, Panče Panov, Tome Eftimov
Black Box Optimization Continuous Option Benchmark Data Optimization Benchmark