Synthetic Datasets

Synthetic datasets are artificially generated datasets designed to augment or replace real-world data in training machine learning models, addressing limitations like data scarcity, cost, and privacy concerns. Current research focuses on generating diverse and representative synthetic data using various techniques, including generative adversarial networks (GANs), diffusion models, and large language models (LLMs), often tailored to specific tasks such as image classification, video understanding, and natural language processing. The creation of high-quality synthetic datasets is crucial for advancing machine learning across numerous fields, enabling more robust model training and facilitating research in areas where real data is limited or difficult to obtain. This approach is particularly impactful in domains like medical imaging and autonomous driving, where data acquisition is expensive and ethically complex.

Papers

June 5, 2024

Dataset-Distillation Generative Model for Speech Emotion Recognition
Fabian Ritter-Gutierrez, Kuan-Po Huang, Jeremy H. M Wong, Dianwen Ng, Hung-yi Lee, Nancy F. Chen, Eng Siong Chng
Generative Adversarial Network Speech Emotion Recognition Dataset Distillation Synthetic Datasets

May 22, 2024

Big5PersonalityEssays: Introducing a Novel Synthetic Generated Dataset Consisting of Short State-of-Consciousness Essays Annotated Based on the Five Factor Model of Personality
Iustin Floroiu
Large Language Model Personality Trait Synthetic Datasets Behavior Style Factor Model Big Five Personality

April 14, 2024

Exploring Generative AI for Sim2Real in Driving Data Synthesis
Haonan Zhao, Yiting Wang, Thomas Bashford-Rogers, Valentina Donzella, Kurt Debattista
Generative Adversarial Network Synthetic Data Generative AI Synthetic Datasets GAN Based State of the Art GAN Driving Data

April 13, 2024

Intellecta Cognitiva: A Comprehensive Dataset for Advancing Academic Knowledge and Machine Reasoning
Ajmal PS, Ditto PS, Jithin VG
Story Generation Cognitive Intelligence Synthetic Datasets Academic Writing Automated Reasoning Student Data

April 6, 2024

SDFR: Synthetic Data for Face Recognition Competition
Hatef Otroshi Shahreza, Christophe Ecabert, Anjith George, Alexander Unnervik, Sébastien Marcel, Nicolò Di Domenico, Guido Borghi, Davide Maltoni, Fadi Boutros, Julia Vogel, Naser Damer, Ángela Sánchez-Pérez, EnriqueMas-Candela, Jorge Calvo-Zaragoza, Bernardo Biesseck, Pedro Vidal, Roger Granada, David Menotti, Ivan DeAndres-Tame, Simone Maurizio La Cava, Sara Concas, Pietro Melzi, Ruben Tolosana, Ruben Vera-Rodriguez, Gianpaolo Perelli, Giulia Orrù, Gian Luca Marcialis, Julian Fierrez
Synthetic Data Face Recognition Synthetic Face Face Recognition Model Synthetic Datasets Large Scale Face Recognition

March 30, 2024

DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation
Aru Maekawa, Satoshi Kosugi, Kotaro Funakoshi, Manabu Okumura
Language Model Data Set Dataset Distillation Synthetic Datasets

March 26, 2024

March 25, 2024

FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN
Paul Joe Maliakel, Shashikant Ilager, Ivona Brandic
Generative Adversarial Network Synthetic Data GAN Model Synthetic Datasets Incomplete Data

March 21, 2024

CombiNeRF: A Combination of Regularization Techniques for Few-Shot Neural Radiance Field View Synthesis
Matteo Bonotto, Luigi Sarrocco, Daniele Evangelista, Marco Imperoli, Alberto Pretto
Neural Radiance Field Novel View Synthesis New Combination Regularization Technique Synthetic Datasets Regularization Approach

February 21, 2024

A Unified Framework and Dataset for Assessing Societal Bias in Vision-Language Models
Ashutosh Sathe, Prachi Jain, Sunayana Sitaram
Data Set Vision Language Model Synthetic Datasets Societal Bias Demographic Bias Biased Feature Unbiased Representation

January 30, 2024

Analysis of Knowledge Tracing performance on synthesised student data
Panagiotis Pagonis, Kai Hartung, Di Wu, Munir Georges, Sören Gröttrup
General Analysis Synthetic Data Knowledge Tracing Synthetic Datasets Student Data

January 26, 2024

PARSAC: Accelerating Robust Multi-Model Fitting with Parallel Sample Consensus
Florian Kluger, Bodo Rosenhahn
Ground Truth 3D Scene Understanding Synthetic Datasets SAmple Consensus Geometric Model Homography Transformation

December 11, 2023

Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator
Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou
Multimodal Large Language Model Instruction Tuning Multimodal Phenomenon Data Generation Multimodal Benchmark Synthetic Datasets

December 1, 2023

SynFundus-1M: A High-quality Million-scale Synthetic fundus images Dataset with Fifteen Types of Annotation
Fangxin Shang, Jie Fu, Yehui Yang, Haifeng Huang, Junwei Liu, Lei Ma
Fundus Image High Quality Annotation Rather Synthetic Datasets Different Type

October 27, 2023

TarGEN: Targeted Data Generation with Large Language Models
Himanshu Gupta, Kevin Scaria, Ujjwala Anantheswaran, Shreyas Verma, Mihir Parmar, Saurabh Arjun Sawant, Chitta Baral, Swaroop Mishra
Large Language Model Synthetic Data Synthetic Dataset Synthetic Datasets SuperGLUE Benchmark

October 10, 2023

Data Distillation Can Be Like Vodka: Distilling More Times For Better Quality
Xuxi Chen, Yu Yang, Zhangyang Wang, Baharan Mirzasoleiman
Dataset Distillation Good Better Synthetic Datasets Data Distillation

October 9, 2023

Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching
Ziyao Guo, Kai Wang, George Cazenavette, Hui Li, Kaipeng Zhang, Yang You
Synthetic Dataset Dataset Distillation Synthetic Datasets Trajectory Matching

October 5, 2023

Residual Multi-Fidelity Neural Network Computing
Owen Davis, Mohammad Motamed, Raul Tempone
Multi Fidelity Numerical Simulation Synthetic Datasets Fidelity Model

September 6, 2023

Active shooter detection and robust tracking utilizing supplemental synthetic data
Joshua R. Waite, Jiale Feng, Riley Tavassoli, Laura Harris, Sin Yong Tan, Subhadeep Chakraborty, Soumik Sarkar
Synthetic Data Domain Randomization Synthetic Datasets Robust Tracking Active Shooter

Synthetic Datasets

Papers

Dataset-Distillation Generative Model for Speech Emotion Recognition

Big5PersonalityEssays: Introducing a Novel Synthetic Generated Dataset Consisting of Short State-of-Consciousness Essays Annotated Based on the Five Factor Model of Personality

Exploring Generative AI for Sim2Real in Driving Data Synthesis

Intellecta Cognitiva: A Comprehensive Dataset for Advancing Academic Knowledge and Machine Reasoning

SDFR: Synthetic Data for Face Recognition Competition

DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation

Practical Applications of Advanced Cloud Services and Generative AI Systems in Medical Image Analysis

Dr.Hair: Reconstructing Scalp-Connected Hair Strands without Pre-training via Differentiable Rendering of Line Segments

FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN

CombiNeRF: A Combination of Regularization Techniques for Few-Shot Neural Radiance Field View Synthesis

A Unified Framework and Dataset for Assessing Societal Bias in Vision-Language Models

Analysis of Knowledge Tracing performance on synthesised student data

PARSAC: Accelerating Robust Multi-Model Fitting with Parallel Sample Consensus

Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator

SynFundus-1M: A High-quality Million-scale Synthetic fundus images Dataset with Fifteen Types of Annotation

TarGEN: Targeted Data Generation with Large Language Models

Data Distillation Can Be Like Vodka: Distilling More Times For Better Quality

Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching

Residual Multi-Fidelity Neural Network Computing

Active shooter detection and robust tracking utilizing supplemental synthetic data