Dataset Condensation

Dataset condensation aims to create smaller, synthetic datasets that retain the essential information of much larger original datasets, thereby reducing computational costs and storage needs for training machine learning models. Current research focuses on improving the efficiency and accuracy of condensation methods, often employing distribution matching techniques or gradient-based optimization, sometimes within the context of specific model architectures like autoencoders. This field is significant because it addresses the growing challenges of big data in machine learning, potentially impacting various applications by enabling more efficient model training and deployment, particularly in resource-constrained environments.

Papers

December 21, 2023

DCFL: Non-IID awareness Data Condensation aided Federated Learning
Shaohan Sha, YaFeng Sun
Dataset Condensation Private Datasets Context Free Centered Kernel Alignment

November 29, 2023

Generalized Large-Scale Data Condensation via Various Backbone and Statistical Matching
Shitong Shao, Zeyuan Yin, Muxin Zhou, Xindong Zhang, Zhiqiang Shen
Synthetic Dataset High Performing 1D ConvNet Tiny ImageNet Dataset Condensation Distilled Dataset Numerous Cutting Edge Backbone

October 21, 2023

You Only Condense Once: Two Rules for Pruning Condensed Datasets
Yang He, Lingao Xiao, Joey Tianyi Zhou
Simple RULE Dataset Condensation Small Scale Datasets Dataset Pruning

October 11, 2023

Leveraging Hierarchical Feature Sharing for Efficient Dataset Condensation
Haizhong Zheng, Jiachen Sun, Shutong Wu, Bhavya Kailkhura, Zhuoqing Mao, Chaowei Xiao, Atul Prakash
Tiny ImageNet Dataset Condensation Hierarchical Memory Feature Swapping

September 14, 2023

Dataset Condensation via Generative Model
David Junhao Zhang, Heng Wang, Chuhui Xue, Rui Yan, Wenqing Zhang, Song Bai, Mike Zheng Shou
Generative Modeling ImageNet 1k Dataset Condensation Class Loss BAyesian Optimal Condensation Framework

July 19, 2023

Improved Distribution Matching for Dataset Condensation
Ganlong Zhao, Guanbin Li, Yipeng Qin, Yizhou Yu
Distribution Matching Dataset Condensation

June 22, 2023

Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale From A New Perspective
Zeyuan Yin, Eric Xing, Zhiqiang Shen
High Performing 1D ConvNet Prompt Recovery Tiny ImageNet Dataset Condensation Squeeze Flow ImageNet Hierarchy

June 9, 2023

Toward Data Efficient Model Merging between Different Datasets without Performance Degradation
Masanori Yamada, Tomoya Yamashita, Shin'ya Yamaguchi, Daiki Chijiwa
Model Merging Dataset Condensation Different Datasets Fashion MNIST Merged Model Permutation Symmetry

May 29, 2023

Towards Efficient Deep Hashing Retrieval: Condensing Your Data via Feature-Embedding Matching
Tao Feng, Jie Zhang, Peizheng Wang, Zhijie Wang
Raw Data Synthetic Dataset Dataset Distillation Retrieval Model Matching Accuracy Large Scale Datasets Dataset Condensation

May 5, 2023

Medical records condensation: a roadmap towards healthcare data democratisation
Yujiang Wang, Anshul Thakur, Mingzhi Dong, Pingchuan Ma, Stavros Petridis, Li Shang, Tingting Zhu, David A. Clifton
Requirement Based Roadmap Dataset Condensation Healthcare Datasets Clinical Artificial Intelligence

March 7, 2023

Robustness-preserving Lifelong Learning via Dataset Condensation
Jinghan Jia, Yihua Zhang, Dogyoon Song, Sijia Liu, Alfred Hero
Adversarial Attack Catastrophic Forgetting Lifelong Learning Model Robustness Dataset Condensation

January 17, 2023

Dataset Distillation: A Comprehensive Review
Ruonan Yu, Songhua Liu, Xinchao Wang
Deep Learning Deep Neural Network Comprehensive Review Dataset Distillation Dataset Condensation

October 21, 2022

Efficient Dataset Distillation Using Random Feature Approximation
Noel Loo, Ramin Hasani, Alexander Amini, Daniela Rus
Dataset Distillation Kernel Ridge Regression Kernel Regression Kernel Matrix Dataset Condensation

September 29, 2022

No Free Lunch in "Privacy for Free: How does Dataset Condensation Help Privacy"
Nicholas Carlini, Vitaly Feldman, Milad Nasr
Membership Inference Attack Privacy Policy Data Privacy Free Lunch Dataset Condensation

August 21, 2022

Dataset Condensation with Latent Space Knowledge Factorization and Sharing
Hae Beom Lee, Dong Bok Lee, Sung Ju Hwang
Latent Space Dataset Condensation Sharing Matter Compact Latent Concept FacTorization

July 30, 2022

Delving into Effective Gradient Matching for Dataset Condensation
Zixuan Jiang, Jiaqi Gu, Mingjie Liu, David Z. Pan
Natural Gradient Dataset Condensation Gradient Matching Sample Gradient

July 20, 2022

DC-BENCH: Dataset Condensation Benchmark
Justin Cui, Ruochen Wang, Si Si, Cho-Jui Hsieh
Small Datasets Dataset Condensation BAyesian Optimal Condensation Framework

June 15, 2022

Condensing Graphs via One-Step Gradient Matching
Wei Jin, Xianfeng Tang, Haoming Jiang, Zheng Li, Danqing Zhang, Jiliang Tang, Bing Yin
Synthetic Data Synthetic Dataset Synthetic Graph Dataset Condensation Graph Condensation Gradient Matching

June 1, 2022

Privacy for Free: How does Dataset Condensation Help Privacy?
Tian Dong, Bo Zhao, Lingjuan Lyu
Differential Privacy Membership Inference Attack Privacy Policy Privacy Preserving Machine Learning Dataset Condensation Visual Privacy Private Data Generation

May 30, 2022

Dataset Condensation via Efficient Synthetic-Data Parameterization
Jang-Hyun Kim, Jinuk Kim, Seong Joon Oh, Sangdoo Yun, Hwanjun Song, Joonhyun Jeong, Jung-Woo Ha, Hyun Oh Song
Synthetic Data Dataset Condensation Distribution Matching Distillation BAyesian Optimal Condensation Framework