Corpus Training

Corpus training focuses on optimizing the datasets used to train language models, aiming to improve model performance and generalization capabilities. Current research emphasizes mitigating issues like data contamination and exploring efficient training strategies, including adaptive multi-corpora training and methods leveraging limited labeled data (e.g., extremely weak supervision). These advancements are crucial for enhancing the accuracy and robustness of language models across various NLP tasks, particularly in low-resource settings and domains where data scarcity is a significant challenge.

Papers

June 20, 2024

Unveiling the Spectrum of Data Contamination in Language Models: A Survey from Detection to Remediation
Chunyuan Deng, Yilun Zhao, Yuzhao Heng, Yitong Li, Jiannan Cao, Xiangru Tang, Arman Cohan
Large Language Model Language Model Data Detection Training Corpus Data Contamination Time to Spectrum Remediation Strategy Corpus Training

May 24, 2024

Filtered Corpus Training (FiCT) Shows that Language Models can Generalize from Indirect Evidence
Abhinav Patil, Jaap Jumelet, Yu Ying Chiu, Andy Lapastora, Peter Shen, Lexie Wang, Clevis Willrich, Shane Steinert-Threlkeld
Language Model Evidence Piece Linguistic Generalization Corpus Training

February 4, 2024

Predicting Machine Translation Performance on Low-Resource Languages: The Role of Domain Similarity
Eric Khiu, Hasti Toossi, David Anugraha, Jinyu Liu, Jiaxu Li, Juan Armando Parra Flores, Leandro Acros Roman, A. Seza Doğruöz, En-Shiun Annie Lee
Integral Role Low Resource Language Multilingual Large Language Model High Resource Language Machine Translation Model Language Similarity Machine Translation Performance Domain Similarity Corpus Training

November 6, 2023

Less than One-shot: Named Entity Recognition via Extremely Weak Supervision
Letian Peng, Zihan Wang, Jingbo Shang
Entity Recognition Named Entity Recognition Weak Supervision One Shot Entity Span Corpus Training Shot Named Entity Recognition

December 19, 2022

A Natural Bias for Language Generation Models
Clara Meister, Wojciech Stokowiec, Tiago Pimentel, Lei Yu, Laura Rimell, Adhiguna Kuncoro
Natural Language Language Generation Neural Machine Translation Language Generation Model Corpus Training

November 9, 2022

Adaptive Multi-Corpora Language Model Training for Speech Recognition
Yingyi Ma, Zhe Liu, Xuedong Zhang
Language Model Automatic Speech Recognition Speech Recognition Large Corpus Neural Network Language Model Corpus Training