Annotated Corpus

Annotated corpora are collections of text data meticulously labeled with linguistic or domain-specific information, serving as crucial training resources for natural language processing (NLP) models. Current research emphasizes the creation of such corpora for diverse domains, including cybersecurity, chemistry, law, and medicine, often employing large language models (LLMs) and recurrent neural networks (RNNs) like LSTMs for annotation and analysis. These resources are vital for advancing NLP capabilities in specialized fields, enabling improved information extraction, knowledge graph construction, and ultimately, more effective applications in various sectors.

Papers

March 6, 2023

ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical Handwritten Documents
Sana Khamekhem Jemni, Sourour Ammar, Mohamed Ali Souibgui, Yousri Kessentini, Abbas Cheddad
Pre Trained Human Annotation Keyword Spotting Self Supervised Transformer Auto Encoder Model Annotated Corpus Annotated Training Data Secret Key Handwritten Manuscript

December 28, 2022

Automatic Recognition and Classification of Future Work Sentences from Academic Articles in a Specific Domain
Chengzhi Zhang, Yi Xiang, Wenke Hao, Zhicheng Li, Yuchen Qian, Yuzhuo Wang
Natural Language Processing Classification Code Open Domain Visual Recognition Annotated Corpus Scholarly Document Future Work

October 1, 2022

CGELBank: CGEL as a Framework for English Syntax Annotation
Brett Reynolds, Aryaman Arora, Nathan Schneider
New Framework Annotated Corpus Dependency Treebanks Linguistic Analysis Linguistic Annotation

September 29, 2022

TERMinator: A system for scientific texts processing
Elena Bruches, Olga Tikhobaeva, Yana Dementyeva, Tatiana Batura
Language Model System Description Relation Extraction Semantic Relation Terminator Economy Annotated Corpus Scientific Text

July 11, 2022

May 27, 2022

Who is we? Disambiguating the referents of first person plural pronouns in parliamentary debates
Ines Rehbein, Josef Ruppenhofer, Julian Bernauer
Large Corpus Annotated Corpus First Person Pronoun Translation Parliamentary Proceeding Referential Communication

April 19, 2022

Named Entity Recognition for Partially Annotated Datasets
Michael Strobl, Amine Trabelsi, Osmar Zaiane
Entity Recognition Annotated Dataset Annotation Strategy Annotated Corpus Sequence Tagging

April 11, 2022

What do complexity measures measure? Correlating and validating corpus-based measures of morphological complexity
Çağrı Çöltekin, Taraka Rama
Annotated Corpus Complexity Measure Typological Exploration

April 8, 2022

CrudeOilNews: An Annotated Crude Oil News Corpus for Event Extraction
Meisin Lee, Lay-Ki Soon, Eu-Gene Siew, Ly Fie Sugianto
Event Extraction Annotated Corpus Financial Text News Corpus Crude Oil

April 6, 2022

Hierarchical Annotation for Building A Suite of Clinical Natural Language Processing Tasks: Progress Note Understanding
Yanjun Gao, Dmitriy Dligach, Timothy Miller, Samuel Tesch, Ryan Laffin, Matthew M. Churpek, Majid Afshar
Development Activity Electronic Health Record Clinical Text Annotated Corpus Software Suite Clinical NLP Task Annotation Schema

March 30, 2022

Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and Approaches to Modeling
Elena Álvarez-Mellado, Constantine Lignos
Constructive Approach Word Embeddings Sequence Labeling Multilingual BERT Continuous Spanish Annotated Corpus Unlabeled Corpus

February 19, 2022

SemEval 2022 Task 12: Symlink- Linking Mathematical Symbols to their Descriptions
Viet Dac Lai, Amir Pouran Ben Veyseh, Franck Dernoncourt, Thien Huu Nguyen
Related Task Description Library Annotated Corpus Punctuation Restoration Sentence Boundary Mathematical Entity

January 31, 2022

Corpus for Automatic Structuring of Legal Documents
Prathamesh Kalamkar, Aman Tiwari, Astha Agarwal, Saurabh Karn, Smita Gupta, Vivek Raghavan, Ashutosh Modi
Large Corpus Legal Document Structured Document Legal Judgment Prediction Annotated Corpus Rhetorical Role

December 3, 2021

Creating and Managing a large annotated parallel corpora of Indian languages
Ritesh Kumar, Shiv Bhusan Kaushik, Pinkey Nainwani, Girish Nath Jha
Large Corpus Indian Language Parallel Corpus Visual Creation Annotation Tool Annotated Corpus Tamil Language

November 30, 2021

Challenges in Developing LRs for Non-Scheduled Languages: A Case of Magahi
Ritesh Kumar
Technical Challenge Case Relevance Annotated Corpus Language Technology Endangered Language Indo Aryan Language Resource

November 25, 2021

Does constituency analysis enhance domain-specific pre-trained BERT models for relation extraction?
Anfu Tang, Louise Deléger, Robert Bossy, Pierre Zweigenbaum, Claire Nédellec
General Analysis Domain Specific BERT Model Relation Extraction Annotated Corpus

Annotated Corpus

Papers

ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical Handwritten Documents

Automatic Recognition and Classification of Future Work Sentences from Academic Articles in a Specific Domain

CGELBank: CGEL as a Framework for English Syntax Annotation

TERMinator: A system for scientific texts processing

TArC: Tunisian Arabish Corpus First complete release

CAMS: An Annotated Corpus for Causal Analysis of Mental Health Issues in Social Media Posts

Who is we? Disambiguating the referents of first person plural pronouns in parliamentary debates

Named Entity Recognition for Partially Annotated Datasets

What do complexity measures measure? Correlating and validating corpus-based measures of morphological complexity

CrudeOilNews: An Annotated Crude Oil News Corpus for Event Extraction

Hierarchical Annotation for Building A Suite of Clinical Natural Language Processing Tasks: Progress Note Understanding

Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and Approaches to Modeling

SemEval 2022 Task 12: Symlink- Linking Mathematical Symbols to their Descriptions

Corpus for Automatic Structuring of Legal Documents

Creating and Managing a large annotated parallel corpora of Indian languages

Challenges in Developing LRs for Non-Scheduled Languages: A Case of Magahi

Does constituency analysis enhance domain-specific pre-trained BERT models for relation extraction?