Synthetic Data

Synthetic data generation aims to create artificial datasets that mimic the statistical properties of real-world data, addressing limitations like data scarcity, privacy concerns, and high annotation costs. Current research focuses on developing sophisticated generative models, including generative adversarial networks (GANs), energy-based models (EBMs), diffusion models, and masked language models, tailored to various data types (images, text, tabular data, audio). This rapidly evolving field significantly impacts diverse scientific domains and practical applications by enabling the training of robust machine learning models in situations where real data is insufficient or ethically problematic, ultimately improving model performance and expanding research possibilities.

841papers

Papers - Page 5

February 20, 2025

February 18, 2025

February 17, 2025

From Gaming to Research: GTA V for Synthetic Data Generation for Robotics and Navigations
Video Game Synthetic Data Visual Place Recognition Synthetic Dataset Real World Data Synthetic Data Generation Robotics Domain Synthetic Datasets

February 14, 2025

Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers
Research Paper Dataset Mention Detection Synthetic Dataset Dataset Quality Synthetic Data Dataset Mention Data Set

February 12, 2025

Synthetic Data

Papers - Page 5

Synth It Like KITTI: Synthetic Data Generation for Object Detection in Driving Scenarios

CLIPPER: Compression enables long-context synthetic data generation

PREM: Privately Answering Statistical Queries with Relative Error

Data-Constrained Synthesis of Training Data for De-Identification

Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation

Contrastive Learning-Based privacy metrics in Tabular Synthetic Datasets

The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text

The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding?

Private Text Generation by Seeding Large Language Model Prompts

Does Training with Synthetic Data Truly Protect Privacy?

Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection

Frequency-domain alignment of heterogeneous, multidimensional separations data through complex orthogonal Procrustes analysis

LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data

From Gaming to Research: GTA V for Synthetic Data Generation for Robotics and Navigations

Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers

Zero-shot generation of synthetic neurosurgical data with large language models

DiffRenderGAN: Addressing Training Data Scarcity in Deep Segmentation Networks for Quantitative Nanomaterial Analysis through Differentiable Rendering and Generative Modelling

Escaping Collapse: The Strength of Weak Data for Large Language Model Training

Copula-based mixture model identification for subgroup clustering with imaging applications

Measuring Diversity in Synthetic Datasets