Data Imputation

Data imputation addresses the pervasive problem of missing values in datasets, aiming to accurately fill these gaps to enable reliable data analysis and machine learning. Current research emphasizes developing sophisticated imputation methods that leverage advanced model architectures, including diffusion models, transformer networks, and graph neural networks, often integrating them with techniques like Expectation-Maximization or semi-supervised learning to improve accuracy and efficiency. These advancements are crucial for various fields, from healthcare (analyzing electronic health records) to finance (improving recommendation systems), where incomplete data hinders accurate analysis and decision-making. The focus is shifting towards methods that prioritize downstream task performance (e.g., classification accuracy) over perfect imputation and incorporate contextual information for more robust and reliable results.

Papers

May 10, 2023

Blockwise Principal Component Analysis for monotone missing data imputation and dimensionality reduction
Tu T. Do, Mai Anh Vu, Tuan L. Vo, Hoang Thien Ly, Thu Nguyen, Steven A. Hicks, Michael A. Riegler, Pål Halvorsen, Binh T. Nguyen
Dimensionality Reduction Imputation Algorithm Missing Value Data Imputation Principal Component Various Imputation Non Negative Monotone

April 16, 2023

Time-dependent Iterative Imputation for Multivariate Longitudinal Clinical Data
Omer Noy, Ron Shamir
Data Imputation Iterative Imputation

April 10, 2023

Missing Data Imputation with Graph Laplacian Pyramid Network
Weiqi Zhang, Guanlve Li, Jianheng Tang, Jia Li, Fugee Tsung
Graph Convolutional Network Imputation Algorithm Knowledge Enhanced Conditional Imputation Data Imputation Imputation Accuracy Missing Data Imputation

March 31, 2023

A robust deep learning-based damage identification approach for SHM considering missing data
Fan Deng, Xiaoming Tao, Pengxiang Wei, Shiyin Wei
Raw Data Structural Health Monitoring Damage Detection Knowledge Enhanced Conditional Imputation Data Imputation Various Imputation

February 2, 2023

Conditional expectation with regularization for missing data imputation
Mai Anh Vu, Thu Nguyen, Tu T. Do, Nhan Phan, Nitesh V. Chawla, Pål Halvorsen, Michael A. Riegler, Binh T. Nguyen
Regularization Model Imputation Algorithm Imputation Method Missing Value Data Imputation Imputation Task Conditional Expectation Multicollinearity Issue

December 6, 2022

Data Imputation with Iterative Graph Reconstruction
Jiajun Zhong, Weiwei Ye, Ning Gui
Data Imputation Deep Imputation Missing Data Imputation Graph Reconstruction Network Reconstruction

November 11, 2022

Integrated Convolutional and Recurrent Neural Networks for Health Risk Prediction using Patient Journey Data with Many Missing Values
Yuxi Liu, Shaowen Qin, Antonio Jimeno Yepes, Wei Shao, Zhenhao Zhang, Flora D. Salim
Recurrent Neural Network Data Imputation Health Risk Prediction Imputation Prediction

November 5, 2022

Towards a methodology for addressing missingness in datasets, with an application to demographic health datasets
Gift Khangamwa, Terence L. van Zyl, Clint J. van Alten
Data Set Application Proficiency NCD Method Missing Data Missing Value Data Imputation Healthcare Datasets Imputation Accuracy Missingness Resilient

November 1, 2022

Impact Of Missing Data Imputation On The Fairness And Accuracy Of Graph Node Classifiers
Haris Mansoor, Sarwan Ali, Shafiq Alam, Muhammad Asad Khan, Umair ul Hassan, Imdadullah Khan
Global Impact Procedural Fairness Imputation Algorithm Imputation Method Data Imputation Missing Data Imputation Graph Node Classification Fairness Aware Graph

October 19, 2022

EGG-GAE: scalable graph neural networks for tabular data imputation
Lev Telyatnikov, Simone Scardapane
Neural Network Supervised Autoencoder Data Imputation Graph Autoencoders Tabular Data Imputation Graph Imputation

October 6, 2022

Comparison of Missing Data Imputation Methods using the Framingham Heart study dataset
Konstantinos Psychogyios, Loukas Ilias, Dimitris Askounis
Consistent Comparison Imputation Method Data Imputation Imputation Task Imputation Prediction

August 28, 2022

Leachable Component Clustering
Miao Cheng, Xinge You
Hierarchical Clustering Incomplete Data Data Imputation Ferrous Scrap

August 13, 2022

GEDI: A Graph-based End-to-end Data Imputation Framework
Katrina Chen, Xiuqin Liang, Zheng Ma, Zhibin Zhang
Imputation Algorithm Imputation Method Data Imputation Graph Imputation

August 3, 2022

Robust PCA for Anomaly Detection and Data Imputation in Seasonal Time Series
Hong-Lan Botterman, Julien Roussel, Thomas Morzadec, Ali Jabbari, Nicolas Brunel
Anomaly Detection Temporal Data Sparse Matrix Data Imputation Robust Principal Component Analysis

June 17, 2022

Explainable Global Error Weighted on Feature Importance: The xGEWFI metric to evaluate the error of data imputation and data augmentation
Jean-Sébastien Dessureault, Daniel Massicotte
Data Augmentation Feature Importance Data Imputation Novel Metric Global Explanation

June 3, 2022

PROMISSING: Pruning Missing Values in Neural Networks
Seyed Mostafa Kia, Nastaran Mohammadian Rad, Daniel van Opstal, Bart van Schie, Andre F. Marquand, Josien Pluim, Wiepke Cahn, Hugo G. Schnack
Neural Network Machine Learning Model Edge Pruning Missing Value Data Imputation Various Imputation

May 10, 2022

Explainable Data Imputation using Constraints
Sandeep Hans, Diptikalyan Saha, Aniya Aggarwal
Participation Constraint Imputation Algorithm Missing Value Data Imputation Various Imputation Consistency Constraint

March 9, 2022

FragmGAN: Generative Adversarial Nets for Fragmentary Data Imputation and Prediction
Fang Fang, Shenliao Bao
Generative Adversarial Network Human Prediction Imputation Algorithm Imputation Method Data Imputation

January 10, 2022

Differentiable and Scalable Generative Adversarial Models for Data Imputation
Yangyang Wu, Jun Wang, Xiaoye Miao, Wenjia Wang, Jianwei Yin
Data Imputation Deep Imputation Generative Adversarial Imputation

November 19, 2021

Data imputation and comparison of custom ensemble models with existing libraries like XGBoost, Scikit learn, etc. for Predictive Equipment failure
Tejas Y. Deo
Data Set Ensemble Model XGBoost Model Data Imputation Scikit Learn Failure Prediction Imputation Model