General Corpus

General corpora, large collections of text data representing diverse language use, are foundational to training powerful language models. Current research emphasizes adapting these pre-trained models to specific domains, often using techniques like fine-tuning with domain-specific data or incorporating knowledge through methods such as regular expressions or knowledge plugins, leveraging architectures like Transformers. This work addresses limitations of general-purpose models in specialized applications, improving performance in tasks such as recommendation systems, named entity recognition, and topic classification across various languages. The resulting improvements have significant implications for numerous fields, including legal proceedings analysis and educational technology.

Papers

November 16, 2023

Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations
Jing Yao, Wei Xu, Jianxun Lian, Xiting Wang, Xiaoyuan Yi, Xing Xie
Large Language Model Domain Knowledge Domain Specific Task Generic Plugin General Corpus

May 23, 2023

Regex-augmented Domain Transfer Topic Classification based on a Pre-trained Language Model: An application in Financial Domain
Vanessa Liao, Syed Shariyar Murtaza, Yifan Nie, Jimmy Lin
Large Language Model Application Proficiency Attention Network Large Pre Trained Language Model Financial Domain General Corpus

March 28, 2023

Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance, Typology and Versioning Information
Maria Clara Ramos Morales Crespo, Maria Lina de Souza Jeannine Rocha, Mariana Lourenço Sturzeneker, Felipe Ribas Serras, Guilherme Lamartine de Mello, Aline Silva Costa, Mayara Feliciano Palma, Renata Morais Mesquita, Raquel de Paula Guets, Mariana Marques da Silva, Marcelo Finger, Maria Clara Paixão de Sousa, Cristiane Namiuti, Vanessa Martins do Monte
Large Corpus Data Provenance Brazilian Portuguese Version Identification Corpus Based Typological Exploration Web Corpus General Corpus Carolina Corpus

February 6, 2023

Coherence and Diversity through Noise: Self-Supervised Paraphrase Generation via Structure-Aware Denoising
Rishabh Gupta, Venktesh V., Mukesh Mohania, Vikram Goyal
Industrial Disturbing Noise Diversity Awareness Discourse Coherence Paraphrase Generation Effective Paraphrasing General Corpus

January 12, 2023

Adversarial Adaptation for French Named Entity Recognition
Arjun Choudhry, Inder Khatri, Pankaj Gupta, Aaryan Gupta, Maxime Nicol, Marie-Jean Meurs, Dinesh Kumar Vishwakarma
Entity Recognition Named Entity Recognition Small Corpus Adversarial Adaptation General Corpus

December 5, 2022

Transformer-Based Named Entity Recognition for French Using Adversarial Adaptation to Similar Domain Corpora
Arjun Choudhry, Pankaj Gupta, Inder Khatri, Aaryan Gupta, Maxime Nicol, Marie-Jean Meurs, Dinesh Kumar Vishwakarma
Entity Recognition Named Entity Recognition Domain Corpus Adversarial Adaptation General Corpus Target Domain Corpus

October 10, 2022

Knowledge Distillation Transfer Sets and their Impact on Downstream NLU Tasks
Charith Peris, Lizhen Tan, Thomas Gueudre, Turan Gojayev, Pan Wei, Gokmen Oz
Knowledge Distillation Global Impact Task Specific Downstream NLP Task Specific Corpus General Corpus

April 15, 2022

Spanish Abstract Meaning Representation: Annotation of a General Corpus
Shira Wein, Lucia Donatelli, Ethan Ricker, Calvin Engstrom, Alex Nelson, Nathan Schneider
Annotation Rather Abstract Meaning Representation General Corpus

April 14, 2022

Analysing similarities between legal court documents using natural language processing approaches based on Transformers
Raphael Souza de Oliveira, Erick Giovani Sperandio Nascimento
Natural Language Processing Transformer Megatron Decepticons Legal Document Similarity Method General Corpus

General Corpus

Papers

Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations

Regex-augmented Domain Transfer Topic Classification based on a Pre-trained Language Model: An application in Financial Domain

Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance, Typology and Versioning Information

Coherence and Diversity through Noise: Self-Supervised Paraphrase Generation via Structure-Aware Denoising

Adversarial Adaptation for French Named Entity Recognition

Transformer-Based Named Entity Recognition for French Using Adversarial Adaptation to Similar Domain Corpora

Knowledge Distillation Transfer Sets and their Impact on Downstream NLU Tasks

Spanish Abstract Meaning Representation: Annotation of a General Corpus

Analysing similarities between legal court documents using natural language processing approaches based on Transformers