Data Synthesis

Data synthesis focuses on generating artificial datasets that mimic the statistical properties and structure of real-world data, primarily to address data scarcity, privacy concerns, and the need for diverse training data in machine learning. Current research emphasizes the synthesis of complex data types, including relational databases and time series, often employing generative models like diffusion models and large language models (LLMs) to achieve high fidelity and utility. These techniques are proving valuable in various applications, from improving the performance of large language models and vision systems to enhancing medical image analysis and enabling privacy-preserving data sharing. The field is also actively developing robust evaluation metrics and methods to ensure the quality and reliability of synthetic data.

50papers

Papers - Page 3

October 16, 2024

October 4, 2024

Benchmarking the Fidelity and Utility of Synthetic Relational Data
Valter Hudovernik, Martin Jurkovič, Erik Štrumbelj
Synthetic Data Task Utility Benchmark Datasets Data Synthesis Fidelity Reward Synthetic Relational

September 27, 2024

IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation
Fan Lin, Shuyi Xie, Yong Dai, Wenlin Yao, Tianjiao Lang, Zishan Xu, Zhichao Hu, Xiao Xiao, Yuhong Liu, Yu Zhang
ID Problem Generalization Model Data Synthesis

September 6, 2024

Towards Privacy-Preserving Relational Data Synthesis via Probabilistic Relational Models
Malte Luttermann, Ralf Möller, Mattis Hartwig
Synthetic Relational Data Synthesis Statistical Relational Relational Learning

September 4, 2024

Towards Data-Centric Face Anti-Spoofing: Improving Cross-domain Generalization via Physics-based Data Synthesis
Rizhao Cai, Cecelia Soh, Zitong Yu, Haoliang Li, Wenhan Yang, Alex Kot
Cross Domain Generalization Face Anti Spoofing Data Synthesis

July 4, 2024

A Survey of Data Synthesis Approaches
Hsin-Yu Chang, Pei-Yu Chen, Tun-Hsiang Chou, Chang-Sheng Kao, Hsuan-Yun Yu, Yen-Ting Lin, Yun-Nung Chen
Synthetic Data Data Synthesis Data Augmentation Timely Survey

June 28, 2024

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis
Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan
Vision Language Model Multi Step Reasoning Visual Reasoning Data Synthesis

June 12, 2024

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing
Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin
Instruction Dataset Large Language Model Scratch Project Data Synthesis Alignment Dataset Instruction Data

June 11, 2024

Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification
Yunzhen Feng, Elvis Dohmatob, Pu Yang, Francois Charton, Julia Kempe
Positive Reinforcement Model Collapse Model Generated Generative Model Data Synthesis

May 30, 2024

Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model
Chaochen Gao, Xing Wu, Qi Fu, Songlin Hu
Long Context Large Language Model QueST Data Synthesis Long Context Benchmark

May 28, 2024

ClavaDDPM: Multi-relational Data Synthesis with Cluster-guided Diffusion Models
Wei Pang, Masoumeh Shafieinejad, Lucy Liu, Stephanie Hazlewood, Xi He
Tabular Model Tabular Data Synthesis Data Synthesis Guided Diffusion

May 23, 2024

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models
Kun Zhou, Beichen Zhang, Jiapeng Wang, Zhipeng Chen, Wayne Xin Zhao, Jing Sha, Zhichao Sheng, Shijin Wang, Ji-Rong Wen
Mathematical Reasoning Mathematical Problem Solving Data Synthesis Natural Language Reasoning Large Language Model

April 25, 2024

WheelPose: Data Synthesis Techniques to Improve Pose Estimation Performance on Wheelchair Users
William Huang, Sam Ghahremani, Siyou Pei, Yang Zhang
Motion Generation Synthetic Data Data Synthesis Pose Estimation Model Wheel Development Motion Capture Autonomous Wheelchair

April 22, 2024

Align Your Steps: Optimizing Sampling Schedules in Diffusion Models
Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis
Data Synthesis Diffusion Model Sample STEP Optimal Sampling Generative Modeling LD Align Sampling Technique

April 9, 2024

Hyperparameter-Free Medical Image Synthesis for Sharing Data and Improving Site-Specific Segmentation
Alexander Chebykin, Peter A. N. Bosman, Tanja Alderliesten
Raw Data Synthetic Medical Image Medical Image Synthesis Data Synthesis Hyperparameter Free

April 5, 2024

Prompt Public Large Language Models to Synthesize Data for Private On-device Applications
Shanshan Wu, Zheng Xu, Yanxiang Zhang, Yuanbo Zhang, Daniel Ramage
Data Synthesis Large Language Model Language Model Differential Privacy Pre Training

March 30, 2024

Harmonizing Light and Darkness: A Symphony of Prior-guided Data Synthesis and Adaptive Focus for Nighttime Flare Removal
Lishen Qu, Shihao Zhou, Jinshan Pan, Jinglei Shi, Duosheng Chen, Jufeng Yang
Flare Removal Flare Free Image Data Synthesis

March 10, 2024

Fine-grainedly Synthesize Streaming Data Based On Large Language Models With Graph Structure Understanding For Data Sparsity
Xin Zhang, Linhai Zhang, Deyu Zhou, Guoqiang Xu
Tail Label Data Synthesis Synthetic Data Graph Understanding Relationship Extraction User Behavior

March 4, 2024

Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning
Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen
Reasoning Datasets Question Answer Pair Mathematical Reasoning Feature Enhancement Data Synthesis

Data Synthesis

Papers - Page 3

Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving

Mastering the Craft of Data Synthesis for CodeLLMs

Benchmarking the Fidelity and Utility of Synthetic Relational Data

IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation

Towards Privacy-Preserving Relational Data Synthesis via Probabilistic Relational Models

Towards Data-Centric Face Anti-Spoofing: Improving Cross-domain Generalization via Physics-based Data Synthesis

A Survey of Data Synthesis Approaches

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification

Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model

ClavaDDPM: Multi-relational Data Synthesis with Cluster-guided Diffusion Models

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

WheelPose: Data Synthesis Techniques to Improve Pose Estimation Performance on Wheelchair Users

Align Your Steps: Optimizing Sampling Schedules in Diffusion Models

Hyperparameter-Free Medical Image Synthesis for Sharing Data and Improving Site-Specific Segmentation

Prompt Public Large Language Models to Synthesize Data for Private On-device Applications

Harmonizing Light and Darkness: A Symphony of Prior-guided Data Synthesis and Adaptive Focus for Nighttime Flare Removal

Fine-grainedly Synthesize Streaming Data Based On Large Language Models With Graph Structure Understanding For Data Sparsity

Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning