High Quality Data

High-quality data is crucial for training effective machine learning models, particularly large language models (LLMs) and multimodal models. Current research focuses on developing methods for creating, cleaning, and selecting high-quality datasets, including techniques like gamified crowdsourcing, counterfactual explanations for data augmentation, and sophisticated filtering algorithms (e.g., ensemble KenLMs) to remove noise and bias. These efforts aim to improve model performance, robustness, and trustworthiness across various applications, from autonomous driving to medical diagnosis, while addressing challenges posed by imbalanced datasets and the high cost of data annotation.

Papers

February 18, 2024

Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning
Yang Zhao, Li Du, Xiao Ding, Kai Xiong, Zhouhao Sun, Jun Shi, Ting Liu, Bing Qin
Global Impact Large Corpus Pre Training Machine Unlearning High Quality Data

January 25, 2024

Genie: Achieving Human Parity in Content-Grounded Datasets Generation
Asaf Yehudai, Boaz Carmeli, Yosi Mass, Ofir Arviv, Nathaniel Mills, Assaf Toledo, Eyal Shnarch, Leshem Choshen
High Quality Data Human Generated Data Demographic Parity Long Form Question Answering

January 4, 2024

Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models
Uday Allu, Biddwan Ahmed, Vishesh Tripathi
Language Model Retrieval Augmented Generation Information Retrieval Process Extraction High Quality Data Table Structure Table Extraction

December 25, 2023

What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning
Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He
Instruction Tuning Alignment Problem Comprehensive Study Data Selection High Quality Data Alignment Model

August 21, 2023

WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models
Conghui He, Zhenjiang Jin, Chao Xu, Jiantao Qiu, Bin Wang, Wei Li, Hang Yan, Jiaqi Wang, Dahua Lin
Large Language Model Training Data Large Model Multimodal Dataset High Quality Data Large Scale Multimodal Dataset

July 17, 2023

AlpaGasus: Training A Better Alpaca with Fewer Data
Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
Large Language Model Instruction Tuning Instruction Following High Quality Data Whispering Llama Instruction Following Model Less Data

July 10, 2023

ECS -- an Interactive Tool for Data Quality Assurance
Christian Sieberichs, Simon Geerkens, Alexander Braun, Thomas Waschulzik
Data Detection Data Quality High Quality Data Safety Critical System

July 7, 2023

QI2 -- an Interactive Tool for Data Quality Assurance
Simon Geerkens, Christian Sieberichs, Alexander Braun, Thomas Waschulzik
Data Quality High Quality Data

June 24, 2023

Active Data Acquisition in Autonomous Driving Simulation
Jianyu Lai, Zexuan Jia, Boao Li
Autonomous Driving Data Collection High Quality Data Autonomous Driving Simulation Driving Algorithm Data Acquisition

June 21, 2023

Annotating Ambiguous Images: General Annotation Strategy for High-Quality Data with Real-World Biomedical Validation
Lars Schmarje, Vasco Grossmann, Claudius Zelenka, Johannes Brünger, Reinhard Koch
Semi Supervised Learning Image Classification Experimental Validation High Quality Data Annotation Strategy Ambiguous Data

June 13, 2023

Effects of Data Enrichment with Image Transformations on the Performance of Deep Networks
Hakan Temiz
Mixed Effect System Performance Deep Network Image Transformation High Quality Data Data Enrichment

June 7, 2023

Good Data, Large Data, or No Data? Comparing Three Approaches in Developing Research Aspect Classifiers for Biomedical Papers
Shreya Chandrasekhar, Chieh-Yang Huang, Ting-Hao 'Kenneth' Huang
Constructive Approach MAESTRO Dataset High Quality Data Aspect Term Extraction Large Scale Data Biomedical Article

May 22, 2023

Differentially Private Medians and Interior Points for Non-Pathological Data
Maryam Aliakbarpour, Rose Silver, Thomas Steinke, Jonathan Ullman
Sample Complexity High Quality Data Private Estimation Interior Point Approximation Method Private Multivariate

December 1, 2022

Inconsistency Ranking-based Noisy Label Detection for High-quality Data
Ruibin Yuan, Hanzhi Yin, Yi Wang, Yifan He, Yushi Ye, Lei Zhang, Zhizheng Wu
Speaker Verification Noisy Label Hard to Easy Inconsistency High Quality Data Noisy Label Detection

November 30, 2022

Using Text Classification with a Bayesian Correction for Estimating Overreporting in the Creditor Reporting System on Climate Adaptation Finance
Janos Borst, Thomas Wencker, Andreas Niekler
Text Classification High Quality Data Credit Scoring Climate Change Adaptation

July 25, 2022

DialCrowd 2.0: A Quality-Focused Dialog System Crowdsourcing Toolkit
Jessica Huynh, Ting-Rui Chiang, Jeffrey Bigham, Maxine Eskenazi
High Quality Data Dialog System Service Requester DialFRED Challenge

June 3, 2022

Finding Rule-Interpretable Non-Negative Data Representation
Matej Mihelčić, Pauli Miettinen
Low Dimensional Representation Non Negative Matrix Factorization High Quality Data Effective Representation Negative Matrix Factorization

March 19, 2022

Data Smells: Categories, Causes and Consequences, and Detection of Suspicious Data in AI-based Systems
Harald Foidl, Michael Felderer, Rudolf Ramler
Data Detection AI System Data Quality High Quality Data Experiential Consequence Suspicious Commenter Data Corruption Code Smell Data Quality Issue

March 12, 2022

A Proposal to Study "Is High Quality Data All We Need?"
Swaroop Mishra, Anjana Arunkumar
Deep Neural Network High Quality Proposal Balance Refinement High Quality Data Adversarial Datasets

March 8, 2022

A Fast Scale-Invariant Algorithm for Non-negative Least Squares with Non-negative Data
Jelena Diakonikolas, Chenghui Li, Swati Padmanabhan, Chaobing Song
Least Square High Quality Data Scale Invariant Feature Transform

High Quality Data

Papers

Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning

Genie: Achieving Human Parity in Content-Grounded Datasets Generation

Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models

What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning

WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models

AlpaGasus: Training A Better Alpaca with Fewer Data

ECS -- an Interactive Tool for Data Quality Assurance

QI2 -- an Interactive Tool for Data Quality Assurance

Active Data Acquisition in Autonomous Driving Simulation

Annotating Ambiguous Images: General Annotation Strategy for High-Quality Data with Real-World Biomedical Validation

Effects of Data Enrichment with Image Transformations on the Performance of Deep Networks

Good Data, Large Data, or No Data? Comparing Three Approaches in Developing Research Aspect Classifiers for Biomedical Papers

Differentially Private Medians and Interior Points for Non-Pathological Data

Inconsistency Ranking-based Noisy Label Detection for High-quality Data

Using Text Classification with a Bayesian Correction for Estimating Overreporting in the Creditor Reporting System on Climate Adaptation Finance

DialCrowd 2.0: A Quality-Focused Dialog System Crowdsourcing Toolkit

Finding Rule-Interpretable Non-Negative Data Representation

Data Smells: Categories, Causes and Consequences, and Detection of Suspicious Data in AI-based Systems

A Proposal to Study "Is High Quality Data All We Need?"

A Fast Scale-Invariant Algorithm for Non-negative Least Squares with Non-negative Data