Training Data

Training data is crucial for machine learning model development, with current research focusing on improving data quality, efficiency, and mitigating biases. Active areas include generating synthetic data to address scarcity or privacy concerns, developing algorithms to optimize data selection and usage (e.g., self-paced learning, active learning), and mitigating issues like data contamination and imbalance through techniques such as data augmentation, selective parameter merging, and novel loss functions. The quality and characteristics of training data significantly impact model performance, generalization, and robustness, influencing various applications from natural language processing and image recognition to scientific computing and medical diagnosis.

Papers

September 13, 2024

Deep learning-based shot-domain seismic deblending
Jing Sun, Song Hou, Vetle Vinje, Gordon Poole, Leiv-J Gelius
Training Data Fewer Shot

September 12, 2024

Enhancing Canine Musculoskeletal Diagnoses: Leveraging Synthetic Image Data for Pre-Training AI-Models on Visual Documentations
Martin Thißen, Thi Ngoc Diep Tran, Ben Joel Schönbein, Ute Trapp, Barbara Esteve Ratsch, Beate Egner, Romana Piat, Elke Hergenröther
Training Data Synthetic Data Pre Trained Model Synthetic Image Visual Representation Synthetic Image Data Musculoskeletal System Musculoskeletal Segmentation

September 11, 2024

CPSample: Classifier Protected Sampling for Guarding Training Data During Diffusion
Joshua Kazdan, Hao Sun, Jiaqi Han, Felix Petersen, Stefano Ermon
Training Data Diffusion Explainer Training Image Rejection Sampling Code Simulation

September 8, 2024

From Computation to Consumption: Exploring the Compute-Energy Link for Training and Testing Neural Networks for SED Systems
Constance Douwes, Romain Serizel
Neural Network Training Data Machine Learning Model Neural Network Architecture Computation Method Memory Management GIT Net

September 7, 2024

Rethinking The Training And Evaluation of Rich-Context Layout-to-Image Generation
Jiaxin Cheng, Zixu Zhao, Tong He, Tianjun Xiao, Yicong Zhou, Zheng Zhang
Generative Model Training Data Global Evaluation Generative Modeling Layout to Image

September 6, 2024

September 4, 2024

UnLearning from Experience to Avoid Spurious Correlations
Jeff Mitchell, Jesús Martínez del Rincón, Niall McLaughlin
Deep Neural Network Training Data Spurious Correlation Harmful Unlearning eXperience Report Classification Model Classification Problem

September 3, 2024

September 2, 2024

Suppressing Noise Disparity in Training Data for Automatic Pathological Speech Detection
Mahdi Amiri, Ina Kodrasi
Training Data Pathological Speech Voice Disorder Joint Disparity Discriminative Performance

August 30, 2024

Synthetic Lunar Terrain: A Multimodal Open Dataset for Training and Evaluating Neuromorphic Vision Algorithms
Marcus Märtens, Kevin Farries, John Culton, Tat-Jun Chin
Training Data Multimodal Phenomenon Event Based Camera Open Dataset Neuromorphic Vision Crater Detection Lunar Surface Neuromorphic Perception

August 29, 2024

August 28, 2024

Auxiliary Input in Training: Incorporating Catheter Features into Deep Learning Models for ECG-Free Dynamic Coronary Roadmapping
Yikang Liu, Lin Zhao, Eric Z. Chen, Xiao Chen, Terrence Chen, Shanhui Sun
Deep Learning Model Training Data Requirement Based Roadmap Central Venous Catheter Auxiliary Feature Catheter Path Fluoroscopic Image

August 26, 2024

1-Bit FQT: Pushing the Limit of Fully Quantized Training to 1-bit
Chang Gao, Jianfei Chen, Kang Zhao, Jiaqi Wang, Liping Jing
Training Data Continuum Limit Different Quantization

August 25, 2024

Condensed Sample-Guided Model Inversion for Knowledge Distillation
Kuluhan Binici, Shivam Aggarwal, Cihan Acar, Nam Trung Pham, Karianto Leman, Gim Hee Lee, Tulika Mitra
Knowledge Distillation Training Data Synthetic Data Neural Network Compression Model Inversion

August 23, 2024

Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting
Zhenyu Wang, Li Wan, Biqiao Zhang, Yiteng Huang, Shang-Wen Li, Ming Sun, Xin Lei, Zhaojun Yang
Training Data Adversarial Example Keyword Spotting Adversarial Data Disentanglement Framework

August 21, 2024

Training Data

Papers

Deep learning-based shot-domain seismic deblending

Enhancing Canine Musculoskeletal Diagnoses: Leveraging Synthetic Image Data for Pre-Training AI-Models on Visual Documentations

CPSample: Classifier Protected Sampling for Guarding Training Data During Diffusion

From Computation to Consumption: Exploring the Compute-Energy Link for Training and Testing Neural Networks for SED Systems

Rethinking The Training And Evaluation of Rich-Context Layout-to-Image Generation

Accelerating Training with Neuron Interaction and Nowcasting Networks

Fast Forwarding Low-Rank Training

UnLearning from Experience to Avoid Spurious Correlations

OLMoE: Open Mixture-of-Experts Language Models

Training on the Benchmark Is Not All You Need

Suppressing Noise Disparity in Training Data for Automatic Pathological Speech Detection

Synthetic Lunar Terrain: A Multimodal Open Dataset for Training and Evaluating Neuromorphic Vision Algorithms

A framework for training and benchmarking algorithms that schedule robot tasks

Minimising changes to audit when updating decision trees

Auxiliary Input in Training: Incorporating Catheter Features into Deep Learning Models for ECG-Free Dynamic Coronary Roadmapping

1-Bit FQT: Pushing the Limit of Fully Quantized Training to 1-bit

Condensed Sample-Guided Model Inversion for Knowledge Distillation

Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting

Memorization in In-Context Learning

Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond