Training Datasets

Training datasets are crucial for developing effective machine learning models, particularly large language and vision models, but their size and quality significantly impact model performance, cost, and security. Current research focuses on optimizing dataset size and composition through techniques like dataset distillation, pruning, and automated data generation, as well as mitigating issues arising from memorization of biased or sensitive information within existing datasets via methods such as machine unlearning. These advancements are vital for improving model efficiency, robustness, and ethical considerations across diverse applications, from medical image analysis to natural language processing.

Papers

May 31, 2022

Neural Retriever and Go Beyond: A Thesis Proposal
Man Luo
Information Retrieval Training Datasets Neural Retriever Electronic Thesis Multi Modal Query

May 19, 2022

Dataset Pruning: Reducing Training Data by Examining Generalization Influence
Shuo Yang, Zeke Xie, Hanyu Peng, Min Xu, Mingming Sun, Ping Li
Deep Learning Training Data Generalization Gap Training Datasets Generalization Behavior Dataset Pruning

May 7, 2022

Training from Zero: Radio Frequency Machine Learning Data Quantity Forecasting
William H. Clark, Alan J. Michaels
Machine Learning Training Data Better Zero Training Datasets Modulation Classification

May 4, 2022

Wild Patterns Reloaded: A Survey of Machine Learning Security against Training Data Poisoning
Antonio Emanuele Cinà, Kathrin Grosse, Ambra Demontis, Sebastiano Vascon, Werner Zellinger, Bernhard A. Moser, Alina Oprea, Battista Biggio, Marcello Pelillo, Fabio Roli
Machine Learning Timely Survey Poisoning Attack Threat Model Training Datasets Distinct Pattern

March 28, 2022

Killing Two Birds with One Stone:Efficient and Robust Training of Face Recognition CNNs by Partial FC
Xiang An, Jiankang Deng, Jia Guo, Ziyong Feng, Xuhan Zhu, Jing Yang, Tongliang Liu
Face Recognition Robust Training Deep Face Recognition Training Datasets Fully Connected Layer STONE Deterioration Pattern Discriminative Embeddings Margin Softmax

March 17, 2022

On the Importance of Data Size in Probing Fine-tuned Models
Houman Mehrafarin, Sara Rajaee, Mohammad Taher Pilehvar
Fine Tuning Importance Aware Dataset Size Training Datasets Linguistic Knowledge

March 16, 2022

Learning to Generate Synthetic Training Data using Gradient Matching and Implicit Differentiation
Dmitry Medvedev, Alexander D'yakonov
LeArning Abstract Deep Network Synthetic Training Data Implicit Differentiation Data Distillation Training Datasets Gradient Matching Generative Ai

March 2, 2022

Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data Programming
Cheng-Yu Hsieh, Jieyu Zhang, Alexander Ratner
Weak Supervision Specific Heuristic Training Datasets NeMo Team Heuristic Label

January 13, 2022

Neuron-Specific Dropout: A Deterministic Regularization Technique to Prevent Neural Networks from Overfitting & Reduce Dependence on Large Training Samples
Joshua Shunk
Deep Neural Network Structured Dropout Model Overfitting Single Neuron Level Training Datasets Deterministic Gradient

Training Datasets

Papers

Neural Retriever and Go Beyond: A Thesis Proposal

Dataset Pruning: Reducing Training Data by Examining Generalization Influence

Training from Zero: Radio Frequency Machine Learning Data Quantity Forecasting

Wild Patterns Reloaded: A Survey of Machine Learning Security against Training Data Poisoning

Killing Two Birds with One Stone:Efficient and Robust Training of Face Recognition CNNs by Partial FC

On the Importance of Data Size in Probing Fine-tuned Models

Learning to Generate Synthetic Training Data using Gradient Matching and Implicit Differentiation

Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data Programming

Neuron-Specific Dropout: A Deterministic Regularization Technique to Prevent Neural Networks from Overfitting & Reduce Dependence on Large Training Samples