Data Pruning

Data pruning is a technique for efficiently training machine learning models by selectively removing less informative data points from large datasets. Current research focuses on developing effective pruning metrics and algorithms, often leveraging language models, importance sampling, and clustering techniques, to identify and remove redundant or noisy data while preserving model accuracy and robustness across various tasks, including image classification, natural language processing, and molecular modeling. This approach significantly reduces training time and computational costs, impacting both the scalability of deep learning research and the deployment of resource-constrained applications.

Papers

June 20, 2024

Measuring Sample Importance in Data Pruning for Language Models based on Information Entropy
Minsang Kim, Seungjun Baek
Large Language Model Data Efficient Data Pruning Dataset Compression Sample Importance

June 19, 2024

Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation
Björn Nieth, Thomas Altstidl, Leo Schwinn, Björn Eskofier
Synthetic Data Adversarial Training Data Pruning

June 5, 2024

BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges
Hoyong Choi, Nohyun Ki, Hye Won Chung
External Sample Data Pruning Data Subset Selection Informative Subset Window Selection

May 30, 2024

Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models
Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul
Language Model Larger Language Model Text Datasets Data Pruning Small Model

May 29, 2024

Critical Learning Periods: Leveraging Early Training Dynamics for Efficient Data Pruning
Everlyn Asiko Chimoto, Jay Gala, Orevaoghene Ahia, Julia Kreutzer, Bruce A. Bassett, Sara Hooker
Training Data Training Dynamic Neural Machine Translation Model Data Pruning Critical Period

May 10, 2024

PUMA: margin-based data pruning
Javier Maroto, Pascal Frossard
Native Robustness Adversarial Training Adversarial Perturbation Data Pruning Accuracy Robustness

April 8, 2024

DRoP: Distributionally Robust Pruning
Artem Vysogorets, Kartik Ahuja, Julia Kempe
Deep Learning Implicit Bias Data Pruning Biased Classifier Robust Pruning

March 12, 2024

Distilling the Knowledge in Data Pruning
Emanuel Ben-Baruch, Adam Botach, Igor Kviatkovsky, Manoj Aggarwal, Gérard Medioni
Knowledge Distillation Knowledge Based Pruning Method Data Pruning

December 21, 2023

Efficient Architecture Search via Bi-level Data Pruning
Chongjun Tu, Peng Ye, Weihao Lin, Hancheng Ye, Chong Yu, Tao Chen, Baopu Li, Wanli Ouyang
Neural Architecture Search Architecture Search Data Pruning Differentiable Architecture Search

December 5, 2023

Decoding Data Quality via Synthetic Corruptions: Embedding-guided Pruning of Code Data
Yu Yang, Aaditya K. Singh, Mostafa Elhoushi, Anas Mahmoud, Kushal Tirumala, Fabian Gloeckle, Baptiste Rozière, Carole-Jean Wu, Ari S. Morcos, Newsha Ardalani
Code Generation Jina Embeddings Edge Pruning Data Quality Data Pruning Code Data Code Datasets Embedding Based Corruption Emulation

November 2, 2023

Robust Data Pruning under Label Noise via Maximizing Re-labeling Accuracy
Dongmin Park, Seola Choi, Doyoung Kim, Hwanjun Song, Jae-Gil Lee
Label Noise Data Pruning Noise Robust Learning Robust Pruning Labeling Model

October 23, 2023

Data Pruning via Moving-one-Sample-out
Haoru Tan, Sitong Wu, Fei Du, Yukang Chen, Zhibin Wang, Fan Wang, Xiaojuan Qi
Gradient Information Data Pruning Stochastic First Order Method Step Sampling

October 11, 2023

D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning
Adyasha Maharana, Prateek Yadav, Mohit Bansal
Data Pruning Diversity Enhancement Difficulty Level System Message Coreset Size

September 21, 2023

Cluster-based pruning techniques for audio data
Boris Bergsma, Marta Brzezinska, Oleg V. Yazyev, Milos Cernak
Barzilai Borwein Technique K Mean Audio Datasets Audio Data Data Pruning Audio Domain

September 8, 2023

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee, Sara Hooker
Large Language Model Large Corpus Visual Analogue Scale Data Quality Data Pruning Quality Corpus

August 2, 2023

Data-Centric Diet: Effective Multi-center Dataset Pruning for Medical Image Segmentation
Yongkang He, Mingjin Chen, Zhijing Yang, Yongyi Lu
Medical Image Segmentation Data Pruning Medical Image Segmentation Benchmark Dense Label Data Diet

June 25, 2023

A Multilingual Translator to SQL with Database Schema Pruning to Improve Self-Attention
Marcelo Archanjo Jose, Fabio Gagliardi Cozman
Self Attention Long Sequence Data Pruning Multilingual Translation Text Sequence

June 5, 2023

NLU on Data Diets: Dynamic Data Subset Selection for NLP Classification Tasks
Jean-Michel Attendu, Jean-Philippe Corbeil
Large Language Model Fine Tuning Data Pruning NLU Model Data Subset Selection Data Diet NLP Classification Task

May 28, 2023

Repeated Random Sampling for Minimizing the Time-to-Accuracy of Learning
Patrik Okanovic, Roger Waleffe, Vasilis Mageirakos, Konstantinos E. Nikolakakis, Amin Karbasi, Dionysis Kalogerias, Nezihe Merve Gürel, Theodoros Rekatsinas
LeArning Abstract Training Data Efficient Training Data Pruning Timing Analysis Data Distillation Random Sampling

March 26, 2023

Does "Deep Learning on a Data Diet" reproduce? Overall yes, but GraNd at Initialization does not
Andreas Kirsch
Deep Learning Gradient Norm New Initialization Data Pruning Random Pruning Data Diet

Data Pruning

Papers

Measuring Sample Importance in Data Pruning for Language Models based on Information Entropy

Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation

BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges

Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

Critical Learning Periods: Leveraging Early Training Dynamics for Efficient Data Pruning

PUMA: margin-based data pruning

DRoP: Distributionally Robust Pruning

Distilling the Knowledge in Data Pruning

Efficient Architecture Search via Bi-level Data Pruning

Decoding Data Quality via Synthetic Corruptions: Embedding-guided Pruning of Code Data

Robust Data Pruning under Label Noise via Maximizing Re-labeling Accuracy

Data Pruning via Moving-one-Sample-out

D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning

Cluster-based pruning techniques for audio data

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

Data-Centric Diet: Effective Multi-center Dataset Pruning for Medical Image Segmentation

A Multilingual Translator to SQL with Database Schema Pruning to Improve Self-Attention

NLU on Data Diets: Dynamic Data Subset Selection for NLP Classification Tasks

Repeated Random Sampling for Minimizing the Time-to-Accuracy of Learning

Does "Deep Learning on a Data Diet" reproduce? Overall yes, but GraNd at Initialization does not