Data Splitting

Data splitting, the partitioning of datasets into training, validation, and testing subsets, is crucial for developing and evaluating machine learning models. Current research emphasizes developing splitting strategies that avoid data leakage and bias, particularly addressing challenges posed by non-IID data, temporal dependencies (as in time series or video data), and imbalanced class distributions. These improved splitting techniques, often coupled with advanced model architectures like transformers and physics-informed neural networks, aim to enhance model generalizability and reliability, leading to more robust and trustworthy machine learning applications across diverse fields.

Papers

November 1, 2022

An Empirical Study on Data Leakage and Generalizability of Link Prediction Models for Issues and Commits
Maliheh Izadi, Pooya Rostami Mazrae, Tom Mens, Arie van Deursen
Transfer Learning Empirical Study Link Prediction Stronger Generalizability Training Model Data Leakage Data Splitting Link Analysis

October 15, 2022

Linear Scalarization for Byzantine-robust learning on non-IID data
Latifa Errami, El Houcine Bergou
Byzantine Robust Byzantine Attack Data Splitting Weighted Sum Scalarization Non IID Data

April 19, 2022

Investigation of a Data Split Strategy Involving the Time Axis in Adverse Event Prediction Using Machine Learning
Katsuhisa Morita, Tadahaya Mizuno, Hiroyuki Kusuhara
Machine Learning Comprehensive Investigation Data Splitting Adverse Event

April 11, 2022

Data Splits and Metrics for Method Benchmarking on Surgical Action Triplet Datasets
Chinedu Innocent Nwoye, Nicolas Padoy
Benchmark Dataset Metric Library Data Splitting Surgical Datasets Benchmark Score Surgical Action Triplet

February 7, 2022

Optimal Ratio for Data Splitting
V. Roshan Joseph
Data Set Machine Learning Model Regression Model Test Set Data Splitting Optimal Split Stochastic Ratio

Data Splitting

Papers

An Empirical Study on Data Leakage and Generalizability of Link Prediction Models for Issues and Commits

Linear Scalarization for Byzantine-robust learning on non-IID data

Investigation of a Data Split Strategy Involving the Time Axis in Adverse Event Prediction Using Machine Learning

Data Splits and Metrics for Method Benchmarking on Surgical Action Triplet Datasets

Optimal Ratio for Data Splitting