Common Crawl Corpus

The Common Crawl corpus is a massive, publicly available dataset of web crawl data used extensively for training large language models (LLMs). Current research focuses on analyzing the corpus's content, particularly identifying and extracting valuable subsets like geospatial data or language-specific information for improved model training and downstream tasks such as information extraction and word sense disambiguation. This work is crucial for advancing natural language processing, enabling the development of more accurate and robust LLMs while also highlighting potential biases and ethical considerations related to the data's composition and representation of various groups.

Papers

November 21, 2024

UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages
Bethel Melesse Tessema (1), Akhil Kedia (2), Tae-Sun Chung (1) ((1) Ajou University, (2) Independent Researcher)
Large Language Model Low Resource Language Monolingual Data Effective Adaptation Common Crawl Corpus

October 31, 2024

GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages
Amir Hossein Kargaran, François Yvon, Hinrich Schütze
Language Model Large Corpus Language Identification Pipeline System Domain Corpus Common Crawl Corpus

June 7, 2024

Quantifying Geospatial in the Common Crawl Corpus
Ilya Ilyankou, Meihui Wang, Stefano Cavazzi, James Haworth
Large Language Model Geospatial Data Powerful Language Model Location Analysis Common Crawl Corpus

May 17, 2024

CC-GPX: Extracting High-Quality Annotated Geospatial Data from Common Crawl
Ilya Ilyankou, Meihui Wang, Stefano Cavazzi, James Haworth
Annotation Tool Spatiotemporal Pattern Web Crawled Data Common Crawl Corpus

April 24, 2024

Homonym Sense Disambiguation in the Georgian Language
Davit Melikidze, Alexander Gamkrelidze
Natural Language Processing Sense Disambiguation Common Crawl Corpus

November 28, 2023

SoUnD Framework: Analyzing (So)cial Representation in (Un)structured (D)ata
Mark Díaz, Sunipa Dev, Emily Reif, Emily Denton, Vinodkumar Prabhakaran
Responsible AI Unstructured Data Unstructured Text Structured Document Human Representation Common Crawl Corpus Representation Online Matter

May 23, 2023

WebIE: Faithful and Robust Information Extraction on the Web
Chenxi Whitehouse, Clara Vania, Alham Fikri Aji, Christos Christodoulopoulos, Andrea Pierleoni
Information Extraction Entity Linking Zero Shot Cross Lingual Generative Information Extraction Common Crawl Corpus

June 30, 2022

esCorpius: A Massive Spanish Crawling Corpus
Asier Gutiérrez-Fandiño, David Pérez-Fernández, Jordi Armengol-Estapé, David Griol, Zoraida Callejas
Natural Language Processing Large Corpus Multilingual Dataset Language Modelling Common Crawl Corpus

January 14, 2022

A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language Models
Vésteinn Snæbjarnarson, Haukur Barri Símonarson, Pétur Orri Ragnarsson, Svanhvít Lilja Ingólfsdóttir, Haukur Páll Jónsson, Vilhjálmur Þorsteinsson, Hafsteinn Einarsson
Language Model Entity Recognition Multilingual Model Complete Recipe Domain Name Warm Start Common Crawl Corpus