Data Curation

Data curation focuses on the systematic collection, organization, and refinement of datasets to optimize the performance and reliability of machine learning models. Current research emphasizes automated curation techniques, leveraging large language models (LLMs) to improve data quality, address biases, and efficiently filter large-scale datasets, often incorporating methods like embedding-based filtering and curriculum learning. This work is crucial for advancing various fields, including natural language processing, computer vision, and biomedical research, by ensuring the availability of high-quality, unbiased datasets essential for training robust and reliable AI systems.

Papers

April 16, 2024

From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search
Jintao Sun, Zhedong Zheng, Gangyi Ding
Data Generation Data Curation Chinese Dataset New Filtering Text Based Person Search Much Data

April 10, 2024

Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic
Sachin Goyal, Pratyush Maini, Zachary C. Lipton, Aditi Raghunathan, J. Zico Kolter
Vision Language Model Limited Data Scaling Law Model Agnostic Data Curation Training Compute Data Filtering

March 19, 2024

Automated Data Curation for Robust Language Model Fine-Tuning
Jiuhai Chen, Jonas Mueller
Supervised Fine Tuning Fine Tuned Model LLM Fine Tuning Data Curation

February 21, 2024

Wikibench: Community-Driven Data Curation for AI Evaluation on Wikipedia
Tzu-Sheng Kuo, Aaron Halfaker, Zirui Cheng, Jiwoo Kim, Meng-Hsin Wu, Tongshuang Wu, Kenneth Holstein, Haiyi Zhu
Content Moderation Wikipedia Article AI Tool Evaluation Datasets Data Curation AI Evaluation

February 4, 2024

Diversity Measurement and Subset Selection for Instruction Tuning Datasets
Peiqi Wang, Yikang Shen, Zhen Guo, Matthew Stallone, Yoon Kim, Polina Golland, Rameswar Panda
Large Language Model Subset Selection Data Curation Reference Dataset Diversity Metric Dataset Diversity

January 30, 2024

A large dataset curation and benchmark for drug target interaction
Alex Golts, Vadim Ratner, Yoel Shoshan, Moshe Raboh, Sagi Polaczek, Michal Ozery-Flato, Daniel Shats, Liam Hazan, Sivan Ravid, Efrat Hexter
New Benchmark Drug Discovery Data Curation Drug Target Interaction Bioactivity Data

January 12, 2024

AboutMe: Using Self-Descriptions in Webpages to Document the Effects of English Pretraining Data Filters
Li Lucy, Suchin Gururangan, Luca Soldaini, Emma Strubell, David Bamman, Lauren F. Klein, Jesse Dodge
Large Language Model Pre Trained Mixed Effect Data Curation Web Page Content Filtering Self Presentation

December 19, 2023

Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in ultra low-data regimes
Nabeel Seedat, Nicolas Huynh, Boris van Breugel, Mihaela van der Schaar
Large Language Model Data Augmentation LLM Generated Data Augmentation Method Low Data Regime Data Curation LLM Generation Augmented Dataset Tabular Data Augmentation

December 5, 2023

MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-Following
Renze Lou, Kai Zhang, Jian Xie, Yuxuan Sun, Janice Ahn, Hanzi Xu, Yu Su, Wenpeng Yin
Large Language Model Instruction Following Data Curation Diverse Instruction Free Task

November 21, 2023

Oasis: Data Curation and Assessment System for Pretraining of Large Language Models
Tong Zhou, Yubo Chen, Pengfei Cao, Kang Liu, Jun Zhao, Shengping Liu
Large Language Model Data Curation Corpus Creation Evaluation Corpus

October 11, 2023

Target-oriented Proactive Dialogue Systems with Personalization: Problem Formulation and Dataset Curation
Jian Wang, Yi Cheng, Dongding Lin, Chak Tou Leong, Wenjie Li
Conversational AI Problem Solving Data Curation PersonaLized Dialogue Generation Task Oriented Dialogue Datasets Proactive Dialogue

October 1, 2023

SEED: Domain-Specific Data Curation With Large Language Models
Zui Chen, Lei Cao, Sam Madden, Tim Kraska, Zeyuan Shang, Ju Fan, Nan Tang, Zihui Gu, Chunwei Liu, Michael Cafarella
Domain Specific Data Curation LLM Generated Code Seed Area Seed Nanopriming

September 29, 2023

Efficient Large Scale Medical Image Dataset Preparation for Machine Learning Applications
Stefan Denner, Jonas Scherer, Klaus Kades, Dimitrios Bounias, Philipp Schader, Lisa Kausch, Markus Bujotzek, Andreas Michael Bucher, Tobias Penzkofer, Klaus Maier-Hein
Medical Image Datasets Machine Learning Application Radiology Imaging Data Curation Large Scale Medical

June 24, 2023

Thinking Like an Annotator: Generation of Dataset Labeling Instructions
Nadine Chang, Francesco Ferroni, Michael J. Tarr, Martial Hebert, Deva Ramanan
Faithful Generation Annotated Dataset Individual Annotator Manual Label Instruction Generation Data Curation

June 20, 2023

Lingua Manga: A Generic Large Language Model Centric System for Data Curation
Zui Chen, Lei Cao, Sam Madden
Pre Trained Large Language Model Data Curation Data Challenge Efficient Task

June 1, 2023

Revisiting Hate Speech Benchmarks: From Data Curation to System Deployment
Atharva Kulkarni, Sarah Masud, Vikram Goyal, Tanmoy Chakraborty
Hate Speech Hate Speech Detection Software Deployment Data Curation Malicious Content

May 5, 2023

The Role of Data Curation in Image Captioning
Wenyan Li, Jonas F. Lotz, Chen Qiu, Desmond Elliott
Integral Role Image Captioning COCO Dataset Training Model Data Curation Caption Editing

April 26, 2023

AutoCure: Automated Tabular Data Curation Technique for ML Pipelines
Mohamed Abdelaal, Rashmi Koparde, Harald Schoening
Automatic Curation Data Curation Data Preparation

December 20, 2022

Data Curation Alone Can Stabilize In-context Learning
Ting-Yun Chang, Robin Jia
Large Language Model Training Data Context Learning Subset Selection Data Curation

March 15, 2022

Innovations in trigger and data acquisition systems for next-generation physics facilities
Rainer Bartoldus, Catrin Bernius, David W. Miller
Digital Innovation Pareto Frontier Data Curation Natural Trigger Data Acquisition