Test Datasets

Test datasets are crucial for evaluating the performance and robustness of machine learning models, particularly in image/video processing, natural language processing, and code generation. Current research emphasizes creating diverse and representative datasets, employing techniques like metadata tagging and stratified sampling to ensure comprehensive scenario coverage and mitigate biases. This rigorous evaluation is vital for ensuring the reliability and trustworthiness of AI systems across various applications, from medical diagnosis to satellite imagery analysis, ultimately driving improvements in model development and deployment.

Papers

December 1, 2024

Explorations in Self-Supervised Learning: Dataset Composition Testing for Object Classification
Raynor Kirkson E. Chavez, Kyle Gabriel M. Reynoso
Self Supervised Learning Environment Exploration Training Image Image Feature Object Classification Higher Resolution Image Test Datasets

September 13, 2024

USTC-TD: A Test Dataset and Benchmark for Image and Video Coding in 2020s
Zhuoyuan Li, Junqi Liao, Chuanbo Tang, Haotian Zhang, Yuqi Li, Yifan Bian, Xihua Sheng, Xinmin Feng, Yao Li, Changsheng Gao, Li Li, Dong Liu, Feng Wu
New Benchmark Video Dataset Video Coding Test Datasets

August 6, 2024

Data Checklist: On Unit-Testing Datasets with Usable Information
Heidi C. Zhang, Shabnam Behzad, Kawin Ethayarajh, Dan Jurafsky
Full Model Preference Datasets State of the Art Datasets Assessment Checklist Test Datasets

June 18, 2024

ScenEval: A Benchmark for Scenario-Based Evaluation of Code Generation
Debalina Ghosh Paul, Hong Zhu, Ian Bayley
New Benchmark Machine Learning Model Code Generation Scenario Based Test Datasets

May 28, 2024

Truthful Dataset Valuation by Pointwise Mutual Information
Shuran Zheng, Yongchan Kwon, Xuan Qi, James Zou
Mutual Information Data Valuation Test Datasets

June 21, 2023

On the Validation of Gibbs Algorithms: Training Datasets, Test Datasets and their Aggregation
Samir M. Perlaza, Iñaki Esnaola, Gaetan Bisson, H. Vincent Poor
Training Data External Validation Data Aggregation Aggregated Data Gibbs Algorithm Different Algorithm Test Datasets

December 20, 2022

Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages
Arnav Mhaske, Harshit Kedia, Sumanth Doddapaneni, Mitesh M. Khapra, Pratyush Kumar, Rudra Murthy, Anoop Kunchukuttan
Training Data Entity Recognition Named Entity Recognition Indian Language Parallel Corpus Test Datasets Entity Annotation

July 13, 2022

Open High-Resolution Satellite Imagery: The WorldStrat Dataset -- With Application to Super-Resolution
Julien Cornebise, Ivan Oršolić, Freddie Kalaitzis
Application Proficiency Super Resolution Satellite Imagery High Resolution Satellite Test Datasets

May 2, 2022

Simple Techniques Work Surprisingly Well for Neural Network Test Prioritization and Active Learning (Replicability Study)
Michael Weiss, Paolo Tonella
Deep Neural Network Active Learning Research Reproducibility Simple Method Test Datasets Test Input

April 21, 2022

Recommendations on test datasets for evaluating AI solutions in pathology
André Homeyer, Christian Geißler, Lars Ole Schwen, Falk Zakrzewski, Theodore Evans, Klaus Strohmenger, Max Westphal, Roman David Bülow, Michaela Kargl, Aray Karjauv, Isidre Munné-Bertran, Carl Orge Retzlaff, Adrià Romero-López, Tomasz Sołtysiński, Markus Plass, Rita Carvalho, Peter Steinbach, Yu-Chia Lan, Nassim Bouteldja, David Haber, Mateo Rojas-Carulla, Alireza Vafaei Sadr, Matthias Kraft, Daniel Krüger, Rutger Fick, Tobias Lang, Peter Boor, Heimo Müller, Peter Hufnagl, Norman Zerbe
Movie Recommendation Tissue Pathology Artificial Intelligence Solution Pathological Feature Test Datasets