Quality Corpus

High-quality corpora are crucial for training effective natural language processing (NLP) models, particularly large language models (LLMs). Current research focuses on creating and improving these corpora through rigorous data cleaning, deduplication, and methods like ensemble techniques, often incorporating diverse sources such as literature, web data, and multilingual content to enhance model performance and address biases. The availability of such corpora is vital for advancing NLP across various languages and domains, impacting applications ranging from machine translation and text-to-speech to legal document processing and medical information retrieval.

Papers

July 26, 2024

Creating an Aligned Corpus of Sound and Text: The Multimodal Corpus of Shakespeare and Milton
Manex Agirrezabal
Text Modality Large Corpus Sound Design Read V Poetry Domain Quality Corpus Multimodal Corpus

June 21, 2024

GLOBE: A High-quality English Corpus with Global Accents for Zero-shot Speaker Adaptive Text-to-Speech
Wenbin Wang, Yang Song, Sanjay Jha
Accented Speech Speaker Similarity Quality Corpus Globe Ce Adaptive Text to Speech

June 4, 2024

Zyda: A 1.3T Dataset for Open Language Modeling
Yury Tokpanov, Beren Millidge, Paolo Glorioso, Jonathan Pilault, Adam Ibrahim, James Whittington, Quentin Anthony
Large Language Model Language Model MAESTRO Dataset Large Scale Pretraining Quality Corpus

June 2, 2024

Developing an efficient corpus using Ensemble Data cleaning approach
Md Taimur Ahad
Natural Language Processing Data Cleaning Quality Corpus Medical Corpus

May 24, 2024

GECKO: Generative Language Model for English, Code and Korean
Sungwoo Oh, Donggyu Kim
Language Model Real World Code Generative Language Model Bilingual Model Quality Corpus Massive Multitask Language Understanding

May 22, 2024

CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models
Giada Pistilli, Alina Leidinger, Yacine Jernite, Atoosa Kasirzadeh, Alexandra Sasha Luccioni, Margaret Mitchell
Data Set Multilingual Dataset Available Datasets Long Form Answer Quality Corpus Cultural Value

September 19, 2023

NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages
Samuel Cahyawijaya, Holy Lovenia, Fajri Koto, Dea Adhista, Emmanuel Dave, Sarah Oktavianti, Salsabil Maulana Akbar, Jhonson Lee, Nuur Shadieq, Tjeng Wawan Cenggoro, Hanung Wahyuning Linuwih, Bryan Wilie, Galih Pradipta Muridan, Genta Indra Winata, David Moeljadi, Alham Fikri Aji, Ayu Purwarianti, Pascale Fung
Natural Language Processing Low Resource Language Low Resource Multilingual Large Language Model Linguistic Diversity Underrepresented Group Writing Process Quality Corpus

September 8, 2023

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee, Sara Hooker
Large Language Model Large Corpus Visual Analogue Scale Data Quality Data Pruning Quality Corpus

July 11, 2023

Vacaspati: A Diverse Corpus of Bangla Literature
Pramit Bhattacharyya, Joydeep Mondal, Subhadip Maji, Arnab Bhattacharya
Large Corpus Quality Corpus Diverse Corpus FastText Model Bengali Literature

June 1, 2023

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay
Large Language Model Language Model Quality Corpus

May 27, 2023

Benchmarking Diverse-Modal Entity Linking with Generative Models
Sijia Wang, Alexander Hanbo Li, Henry Zhu, Sheng Zhang, Chung-Wei Hang, Pramuditha Perera, Jie Ma, William Wang, Zhiguo Wang, Vittorio Castelli, Bing Xiang, Patrick Ng
Generative Model Multi Modal Entity Linking Multi Modal LLM Quality Corpus

May 23, 2023

Topic-driven Distant Supervision Framework for Macro-level Discourse Parsing
Feng Jiang, Longwang He, Peifeng Li, Qiaoming Zhu, Haizhou Li
Natural Language Processing Distant Supervision Discourse Parsing Quality Corpus Discourse Treebank

April 28, 2023

CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data
Michał Turski, Tomasz Stanisławek, Karol Kaczmarek, Paweł Dyda, Filip Graliński
Language Model Large Corpus Multilingual Language Model Document Understanding Visually Rich Document PDF Document Quality Corpus Web Crawled Data

April 27, 2022

RigoBERTa: A State-of-the-Art Language Model For Spanish
Alejandro Vaca Serrano, Guillem Garcia Subies, Helena Montoro Zamorano, Nuria Aldama Garcia, Doaa Samy, David Betancur Sanchez, Antonio Moreno Sandoval, Marta Guerrero Nieto, Alvaro Barbero Jimenez
Continuous Spanish State of the Art Language Quality Corpus Spanish Language Model

April 19, 2022

Building Odia Shallow Parser
Pruthwik Mishra, Dipti Misra Sharma
Large Corpus Quality Corpus Shallow Parser

April 2, 2022

HLDC: Hindi Legal Documents Corpus
Arnav Kapoor, Mudit Dhawan, Anmol Goel, T. H. Arjun, Akshala Bhatnagar, Vibhu Agrawal, Amul Agrawal, Arnab Bhattacharya, Ponnurangam Kumaraguru, Ashutosh Modi
Multi Task Learning Large Corpus Indian Legal Quality Corpus

March 4, 2022

EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation
Yulin Xu, Zhen Yang, Fandong Meng, JieZhou
Parallel Corpus Language Pair Multilingual Neural Machine Translation Generate Quick Bilingual Data Quality Corpus