Text Datasets

Text datasets are crucial for training and evaluating machine learning models, particularly in natural language processing. Current research focuses on improving dataset quality through methods like data augmentation, diversity incentivization, and sophisticated annotation techniques, often leveraging large language models (LLMs) for tasks such as data generation, cleaning, and analysis. These efforts aim to address issues of bias, imbalance, and lack of diversity in existing datasets, ultimately leading to more robust and reliable models with broader applicability across various domains. The development and refinement of text datasets are essential for advancing the field and ensuring the responsible deployment of AI systems.

Papers

October 31, 2022

Automated Code Extraction from Discussion Board Text Dataset
Sina Mahdipour Saravani, Sadaf Ghaffari, Yanye Luther, James Folkestad, Marcia Moraes
Source Code Latent Dirichlet Allocation Text Mining Text Datasets Text Clustering Latent Semantic Analysis

October 26, 2022

Will we run out of data? Limits of LLM scaling based on human-generated data
Pablo Villalobos, Anson Ho, Jaime Sevilla, Tamay Besiroglu, Lennart Heim, Marius Hobbhahn
Raw Data Continuum Limit Text Datasets Text Data Human Generated Data

October 25, 2022

Differentially Private Language Models for Secure Data Sharing
Justus Mattern, Zhijing Jin, Benjamin Weggenmann, Bernhard Schoelkopf, Mrinmaya Sachan
Language Model Synthetic Data Generative Language Model Local Differential Privacy Data Sharing Text Datasets

August 30, 2022

Annotated Dataset Creation through General Purpose Language Models for non-English Medical NLP
Johann Frei, Frank Kramer
Language Model Natural Language Processing Text Datasets Natural Language Processing Pipeline Dataset Annotation General Purpose Language Model

May 30, 2022

Contextualization for the Organization of Text Documents Streams
Rui Portocarrero Sarmento, Douglas O. Cardoso, João Gama, Pavel Brazdil
Information Retrieval Text Datasets Document Re Ranking Text Stream Organization Name

March 21, 2022

Academic Resource Text Level Multi-label Classification based on Attention
Yue Wang, Yawen Li, Ang Li
Human Attention Text Datasets Hierarchical Multi Label Classification Label Hierarchy Hierarchical Multi Label Text Classification

December 28, 2021

Automatic Pharma News Categorization
Stanislaw Adaszewski, Pascal Kuner, Ralf J. Jaeger
Classification Task Ensemble Model Text Datasets

December 10, 2021

LSH methods for data deduplication in a Wikipedia artificial dataset
Juan Ciro, Daniel Galvez, Tim Schlippe, David Kanter
Data Generation Information Redundancy Wikipedia Article Text Datasets Locality Sensitive Hashing Data Deduplication

November 22, 2021

LeQua@CLEF2022: Learning to Quantify
Andrea Esuli, Alejandro Moreo, Fabrizio Sebastiani
Text Datasets Comparative Evaluation Multi Class

November 11, 2021

SynthBio: A Case Study in Human-AI Collaborative Curation of Text Datasets
Ann Yuan, Daphne Ippolito, Vitaly Nikolaev, Chris Callison-Burch, Andy Coenen, Sebastian Gehrmann
Natural Language Processing Case Study Text Datasets Automatic Curation Data Curation Human Labeled