Training Corpus

Training corpora are the massive datasets used to train large language models (LLMs), with current research focusing on improving their quality, diversity, and suitability for specific tasks. This involves developing methods for data selection and curation, including techniques that leverage data influence scores and address issues like data contamination and bias. The effective construction of training corpora is crucial for building high-performing and reliable LLMs, impacting various fields from scientific research to medical applications and beyond.

Papers

August 29, 2022

Reweighting Strategy based on Synthetic Data Identification for Sentence Similarity
Taehee Kim, ChaeHun Park, Jimin Hong, Radhika Dua, Edward Choi, Jaegul Choo
Language Model Sentence Embeddings Machine Generated Training Corpus Dynamic Reweighting Sentence Similarity Synthetic Identity

July 4, 2022

Mix and Match: An Empirical Study on Training Corpus Composition for Polyglot Text-To-Speech (TTS)
Ziyao Zhang, Alessio Falai, Ariadna Sanchez, Orazio Angelini, Kayoko Yanagisawa
Empirical Study Text to Speech Speech Synthesis Training Corpus Based Mix Monolingual Corpus

June 6, 2022

FedNST: Federated Noisy Student Training for Automatic Speech Recognition
Haaris Mehmood, Agnieszka Dobrowolska, Karthikeyan Saravanan, Mete Ozay
Automatic Speech Recognition Speech Data Automatic Speech Recognition Model Training Corpus

May 24, 2022

Lack of Fluency is Hurting Your Translation Model
Jaehyo Yoo, Jaewoo Kang
Parallel Corpus Training Corpus Back Translation Machine Translation Model Translation Model Lack Thereof

May 12, 2022

AppTek's Submission to the IWSLT 2022 Isometric Spoken Language Translation Task
Patrick Wilken, Evgeny Matusov
Training Corpus Scientific Hypothesis UniUD FBK UB UniBZ Submission Length Constraint

May 10, 2022

Richer Countries and Richer Representations
Kaitlyn Zhou, Kawin Ethayarajh, Dan Jurafsky
Visual Representation Training Corpus Text Distribution Representational Harm Wealth Inequality

April 28, 2022

On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model
Seongjin Shin, Sang-Woo Lee, Hwijeen Ahn, Sungdong Kim, HyoungSeok Kim, Boseop Kim, Kyunghyun Cho, Gichang Lee, Woomyoung Park, Jung-Woo Ha, Nako Sung
Context Learning Shot Learning Mixed Effect Large Scale Language Model Training Corpus Shot in Context Learning Pre Training Corpus Context Learning Ability

April 22, 2022

Out-of-Domain Evaluation of Finnish Dependency Parsing
Jenna Kanerva, Filip Ginter
Cross Domain Training Corpus Unknown Out of Domain

March 25, 2022

ZS4IE: A toolkit for Zero-Shot Information Extraction with simple Verbalizations
Oscar Sainz, Haoling Qiu, Oier Lopez de Lacalle, Eneko Agirre, Bonan Min
Zero Shot Learning Information Extraction Textual Entailment Training Corpus Easy to Use Toolkit Zero Shot Information Extraction

March 15, 2022

Do Language Models Plagiarize?
Jooyoung Lee, Thai Le, Jinghui Chen, Dongwon Lee
Language Model Training Corpus Plagiarism Detection

March 6, 2022

Leashing the Inner Demons: Self-Detoxification for Language Models
Canwen Xu, Zexue He, Zhankui He, Julian McAuley
Language Model Training Corpus Trading Devil Non Toxic Toxic Language Fine Grained Detoxification Gated Toxicity Avoidance

February 25, 2022

APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets
Kichang Yang, Wonjun Jang, Won Ik Cho
Language Model General Analysis Low Resource Language Hate Speech Hate Speech Detection Training Corpus Offensive Content

February 21, 2022

BERT WEAVER: Using WEight AVERaging to enable lifelong learning for transformer-based models in biomedical semantic search engines
Lisa Kühnel, Alexander Schulz, Barbara Hammer, Juliane Fluck
Training Data Transfer Learning Transformer Based Model Natural Language Processing Task Lifelong Learning Training Corpus WEight AVERaging Mask BERT

January 28, 2022

Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model
Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, Bryan Catanzaro
Language Model Transformer Megatron Decepticons Large Scale Language Model Training Corpus High Speed Train System General Purpose Language Model DeepSpeed Ulysses

January 25, 2022

Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection
Suchin Gururangan, Dallas Card, Sarah K. Dreier, Emily K. Gade, Leroy Z. Wang, Zeyu Wang, Luke Zettlemoyer, Noah A. Smith
Language Model Human Language High Quality Training Corpus

January 14, 2022

The Dark Side of the Language: Pre-trained Transformers in the DarkNet
Leonardo Ranaldi, Aria Nourbakhsh, Arianna Patrizi, Elena Sofia Ruzzetti, Dario Onorati, Francesca Fallucchi, Fabio Massimo Zanzotto
Domain Adaptation Transformer Megatron Decepticons Human Language Pre Trained Transformer Training Corpus Language Modeling Task

January 5, 2022

SMDT: Selective Memory-Augmented Neural Document Translation
Xu Zhang, Jian Yang, Haoyang Huang, Shuming Ma, Dongdong Zhang, Jinlong Li, Furu Wei
Training Corpus Document Level Document Level Neural Machine Translation

Training Corpus

Papers

Reweighting Strategy based on Synthetic Data Identification for Sentence Similarity

Mix and Match: An Empirical Study on Training Corpus Composition for Polyglot Text-To-Speech (TTS)

FedNST: Federated Noisy Student Training for Automatic Speech Recognition

Lack of Fluency is Hurting Your Translation Model

AppTek's Submission to the IWSLT 2022 Isometric Spoken Language Translation Task

Richer Countries and Richer Representations

On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model

Out-of-Domain Evaluation of Finnish Dependency Parsing

ZS4IE: A toolkit for Zero-Shot Information Extraction with simple Verbalizations

Do Language Models Plagiarize?

Leashing the Inner Demons: Self-Detoxification for Language Models

APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets

BERT WEAVER: Using WEight AVERaging to enable lifelong learning for transformer-based models in biomedical semantic search engines

Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model

Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection

The Dark Side of the Language: Pre-trained Transformers in the DarkNet

SMDT: Selective Memory-Augmented Neural Document Translation