Dataset Creation

Dataset creation for machine learning, particularly in complex domains like natural language processing and computer vision, is a critical area of research focusing on improving data quality, efficiency, and representativeness. Current efforts involve developing automated pipelines for data generation and annotation, leveraging large language models to streamline the process, and employing novel techniques like auction mechanisms to optimize resource allocation. These advancements are crucial for enhancing the reliability and generalizability of machine learning models, impacting various fields from legal tech and finance to healthcare and industrial automation.

Papers

May 8, 2024

Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models
Luke Merrick, Danmei Xu, Gaurav Nuti, Daniel Campos
Full Model High Efficiency Potential Scalability Retrieval Performance Dataset Creation

March 1, 2024

Imitation Learning Datasets: A Toolkit For Creating Datasets, Training Agents and Benchmarking
Nathan Gavenski, Michael Luck, Odinaldo Rodrigues
Data Set Imitation Learning Feature Imitation Easy to Use Toolkit Training Agent Dataset Creation New Datasets

February 26, 2024

Retrieval Augmented Generation Systems: Automatic Dataset Creation, Evaluation and Boolean Agent Setup
Tristan Kenneweg, Philip Kenneweg, Barbara Hammer
Large Language Model Global Evaluation Retrieval Augmented Generation Dataset Creation Vector Database Sophisticated Agent

February 19, 2024

Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models
Jiahao Ying, Yixin Cao, Yushi Bai, Qianru Sun, Bo Wang, Wei Tang, Zhaojun Ding, Yizhe Yang, Xuanjing Huang, Shuicheng Yan
Large Language Model Fine Grained Natural Language Processing Benchmark Dataset Creation Challenging Dataset

November 27, 2023

Releasing the CRaQAn (Coreference Resolution in Question-Answering): An open-source dataset and dataset creation methodology using instruction-following models
Rob Grzywinski, Joshua D'Arcy, Rob Naidoff, Ashish Shukla, Alex Browne, Ren Gibbons, Brinnae Bent
Open Source Question Answer Pair Coreference Resolution Question Answering Task Coreference Information Question Answering System Dataset Creation Instruction Following Model

November 13, 2023

Detecting As Labeling: Rethinking LiDAR-camera Fusion in 3D Object Detection
Junjie Huang, Yun Ye, Zhujin Liang, Yi Shan, Dalong Du
3D Object Detection Hybrid Fusion Regression Task Manual Label Hui Walter Paradigm Dataset Creation LiDAR Camera

August 31, 2023

Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis
Nayeon Lee, Chani Jung, Junho Myung, Jiho Jin, Jose Camacho-Collados, Juho Kim, Alice Oh
General Analysis Hate Speech Hate Speech Detection Hateful Content Dataset Creation Linguistic Annotation Cultural Difference

August 12, 2023

Ground Truth Or Dare: Factors Affecting The Creation Of Medical Datasets For Training AI
Hubert D. Zając, Natalia R. Avlona, Tariq O. Andersen, Finn Kensing, Irina Shklovski
Ground Truth Responsible AI Key Factor Visual Creation Medical Datasets Dataset Creation Artificial Intelligence Training

July 31, 2023

An Effective Data Creation Pipeline to Generate High-quality Financial Instruction Data for Large Language Model
Ziao Wang, Jianning Wang, Junda Wu, Xiaofeng Zhang
Large Language Model Dataset Creation Financial Dataset Instruction Paradigm

April 3, 2023

Semi-Automated Computer Vision based Tracking of Multiple Industrial Entities -- A Framework and Dataset Creation Approach
Jérôme Rutinowski, Hazem Youssef, Sven Franke, Irfan Fachrudin Priyanta, Frederik Polachowski, Moritz Roidl, Christopher Reining
Computer Vision New Framework Web Tracking Industry Assignment Tracking Algorithm Dataset Creation Tracking Method

Dataset Creation

Papers

Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models

Imitation Learning Datasets: A Toolkit For Creating Datasets, Training Agents and Benchmarking

Retrieval Augmented Generation Systems: Automatic Dataset Creation, Evaluation and Boolean Agent Setup

Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models

Releasing the CRaQAn (Coreference Resolution in Question-Answering): An open-source dataset and dataset creation methodology using instruction-following models

Detecting As Labeling: Rethinking LiDAR-camera Fusion in 3D Object Detection

Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis

Ground Truth Or Dare: Factors Affecting The Creation Of Medical Datasets For Training AI

An Effective Data Creation Pipeline to Generate High-quality Financial Instruction Data for Large Language Model

Semi-Automated Computer Vision based Tracking of Multiple Industrial Entities -- A Framework and Dataset Creation Approach