Data Quality

Data quality, encompassing accuracy, completeness, consistency, and timeliness of data, is crucial for reliable machine learning model performance and trustworthy AI applications. Current research focuses on developing automated methods for detecting and correcting data quality issues, including techniques like synthetic data generation, data augmentation, and the application of machine learning models themselves to refine datasets (e.g., using smaller models to improve larger ones). These efforts are driven by the need to improve the accuracy and robustness of AI systems across diverse fields, from social sciences and finance to healthcare and particle physics, where high-quality data is essential for reliable insights and decision-making.

Papers

February 19, 2024

Reformatted Alignment
Run-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu
Large Language Model Alignment Problem Human Annotation Data Quality Alignment Approach

February 15, 2024

QuRating: Selecting High-Quality Data for Training Language Models
Alexander Wettig, Aatmik Gupta, Saumya Malik, Danqi Chen
Language Model Pre Training Data Quality Data Selection Training Corpus

February 13, 2024

Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering
Tobias Schimanski, Jingwei Ni, Mathias Kraus, Elliott Ash, Markus Leippold
Large Language Model Data Quality Evidence Based Data Filtering

February 11, 2024

Data Quality Aware Approaches for Addressing Model Drift of Semantic Segmentation Models
Samiha Mirza, Vuong D. Nguyen, Pranav Mantini, Shishir K. Shah
Semantic Segmentation Model Data Quality Model Drift

January 25, 2024

Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets
Kumar Abhishek, Aditi Jain, Ghassan Hamarneh
Quality Issue Data Quality Large Datasets Data Quality Issue Dermatological Disease Datasets

January 23, 2024

DsDm: Model-Aware Dataset Selection with Datamodels
Logan Engstrom, Axel Feldmann, Aleksander Madry
Language Model Model Performance Data Quality Data Model

December 13, 2023

A Novel Metric for Measuring Data Quality in Classification Applications (extended version)
Jouseau Roxane, Salva Sébastien, Samir Chafik
Machine Learning Data Quality Classification Performance Version Identification Novel Metric Classification Application

December 5, 2023

Decoding Data Quality via Synthetic Corruptions: Embedding-guided Pruning of Code Data
Yu Yang, Aaditya K. Singh, Mostafa Elhoushi, Anas Mahmoud, Kushal Tirumala, Fabian Gloeckle, Baptiste Rozière, Carole-Jean Wu, Ari S. Morcos, Newsha Ardalani
Code Generation Jina Embeddings Edge Pruning Data Quality Data Pruning Code Data Code Datasets Embedding Based Corruption Emulation

November 22, 2023

CoachLM: Automatic Instruction Revisions Improve the Data Quality in LLM Instruction Tuning
Yilun Liu, Shimin Tao, Xiaofeng Zhao, Ming Zhu, Wenbing Ma, Junhao Zhu, Chang Su, Yutai Hou, Miao Zhang, Min Zhang, Hongxia Ma, Li Zhang, Hao Yang, Yanfei Jiang
Instruction Tuning Data Quality Instruction Dataset Human COACH

November 19, 2023

Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models
Zhaowei Zhu, Jialu Wang, Hao Cheng, Yang Liu
Language Model Data Set Study Feature Data Quality Real World Datasets Unsafe Content Untrusted Data

November 17, 2023

Delete My Account: Impact of Data Deletion on Machine Learning Classifiers
Tobias Dam, Maximilian Henzl, Lukas Daniel Klausner
Global Impact Sensitive Data Data Quality Machine Learning Classifier Personal Information General Data Protection Regulation Long Form Deletion Data Removal Mean End Account Deletion Inference

November 11, 2023

Separating the Wheat from the Chaff with BREAD: An open-source benchmark and metrics to detect redundancy in text
Isaac Caswell, Lisa Wang, Isabel Papadimitriou
Text Modality NLP Field Open Source Metric Library Data Quality Information Redundancy Better Language Model Evaluation Corpus Web Mined Corpus

November 7, 2023

October 20, 2023

Semantic Modelling of Organizational Knowledge as a Basis for Enterprise Data Governance 4.0 -- Application to a Unified Clinical Data Model
Miguel AP Oliveira, Stephane Manara, Bruno Molé, Thomas Muller, Aurélien Guillouche, Lysann Hesske, Bruce Jordan, Gilles Hubert, Chinmay Kulkarni, Pralipta Jagdev, Cedric R. Berger
Data Quality Semantic Model Alternative Basis Structured Clinical Data Management Data Model Data Governance Process Knowledge

October 12, 2023

A Novel Statistical Measure for Out-of-Distribution Detection in Data Quality Assurance
Tinghui Ouyang, Isao Echizen, Yoshiki Seo
Distribution Detection Distribution Data Long Form Novel Data Quality Industrial Datasets AI Quality

September 8, 2023

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee, Sara Hooker
Large Language Model Large Corpus Visual Analogue Scale Data Quality Data Pruning Quality Corpus

September 4, 2023

Drifter: Efficient Online Feature Monitoring for Improved Data Integrity in Large-Scale Recommendation Systems
Blaž Škrlj, Nir Ki-Tov, Lee Edelist, Natalia Silberstein, Hila Weisman-Zohar, Blaž Mramor, Davorin Kopič, Naama Ziporin
Recommender System Data Quality Drift Detection Real Drift Large Scale Recommendation System Feature Tracking Data Fidelity

July 27, 2023

Solving Data Quality Problems with Desbordante: a Demo
George Chernishev, Michael Polyntsov, Anton Chizhov, Kirill Stupakov, Ilya Shchuckin, Alexander Smirnov, Maxim Strutovsky, Alexey Shlyonskikh, Mikhail Firsov, Stepan Manannikov, Nikita Bobrov, Daniil Goncharov, Ilia Barutkin, Vladislav Shalnev, Kirill Muraviev, Anna Rakhmukova, Dmitriy Shcheka, Anton Chernikov, Mikhail Vyrodov, Yaroslav Kurbatov, Maxim Fofanov, Sergei Belokonnyi, Pavel Anosov, Arthur Saliou, Eduard Gaisin, Kirill Smirnov
Anomaly Detection Data Quality Dataset Specific Profiling

July 16, 2023

Analyzing Dataset Annotation Quality Management in the Wild
Jan-Christoph Klie, Richard Eckart de Castilho, Iryna Gurevych
Natural Language Wild Challenge Data Quality Text Datasets Annotation Error Dataset Annotation Annotation Error Rate

Data Quality

Papers

Reformatted Alignment

QuRating: Selecting High-Quality Data for Training Language Models

Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering

Data Quality Aware Approaches for Addressing Model Drift of Semantic Segmentation Models

Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets

DsDm: Model-Aware Dataset Selection with Datamodels

A Novel Metric for Measuring Data Quality in Classification Applications (extended version)

Decoding Data Quality via Synthetic Corruptions: Embedding-guided Pruning of Code Data

CoachLM: Automatic Instruction Revisions Improve the Data Quality in LLM Instruction Tuning

Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models

Delete My Account: Impact of Data Deletion on Machine Learning Classifiers

Separating the Wheat from the Chaff with BREAD: An open-source benchmark and metrics to detect redundancy in text

Spatio-Temporal Anomaly Detection with Graph Networks for Data Quality Monitoring of the Hadron Calorimeter

Exploring Dataset-Scale Indicators of Data Quality

Semantic Modelling of Organizational Knowledge as a Basis for Enterprise Data Governance 4.0 -- Application to a Unified Clinical Data Model

A Novel Statistical Measure for Out-of-Distribution Detection in Data Quality Assurance

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

Drifter: Efficient Online Feature Monitoring for Improved Data Integrity in Large-Scale Recommendation Systems

Solving Data Quality Problems with Desbordante: a Demo

Analyzing Dataset Annotation Quality Management in the Wild