Open Corpus

Open corpora, large collections of publicly available text and other data, are increasingly crucial for advancing various fields of research. Current research focuses on developing and improving these corpora, including creating benchmarks for evaluating multi-object tracking and building models to extract information like character and emotion from narratives or mathematical concepts from scientific texts. This work facilitates advancements in natural language processing, knowledge graph construction, and other areas by providing researchers with standardized, accessible datasets for training and evaluating algorithms, ultimately leading to more robust and reliable models.

Papers

December 13, 2024

TACOMORE: Leveraging the Potential of LLMs in Corpus-based Discourse Analysis with Prompt Engineering
Bingru Li, Han Wang
General Analysis Medical LLM Prompt Engineering Discourse Structure Corpus Based Open Corpus Efficient Prompting

July 22, 2024

ILiAD: An Interactive Corpus for Linguistic Annotated Data from Twitter Posts
Simon Gonzalez
Large Corpus Twitter Tweet Linguistic Study Corpus Based Linguistic Analysis Open Corpus

July 19, 2024

OCTrack: Benchmarking the Open-Corpus Multi-Object Tracking
Zekun Qian, Ruize Han, Wei Feng, Junhui Hou, Linqi Song, Song Wang
Multi Object Tracking Object Recognition Multi Granularity Open Corpus

March 29, 2024

Individual Text Corpora Predict Openness, Interests, Knowledge and Level of Education
Markus J. Hofmann, Markus T. Jansen, Christoph Wigbels, Benny Briesemeister, Arthur M. Jacobs
Knowledge Based Education Domain User Interest Psychometric Property Different Level Personality Classification Mutual Influence Open Corpus IC Label Word Similarity

March 21, 2024

Sequence-to-Sequence Language Models for Character and Emotion Detection in Dream Narratives
Gustave Cortal
Large Language Model Language Model Sequence to Sequence Character Persona Open Corpus Agent DREAM

January 31, 2024

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
Language Model Large Corpus K TOKEN Open Corpus Language Model Pre Training

December 19, 2023

SpokesBiz -- an Open Corpus of Conversational Polish
Piotr Pęzik, Sylwia Karasińska, Anna Cichosz, Łukasz Jałowiecki, Konrad Kaczyński, Małgorzata Krawentek, Karolina Walkusz, Paweł Wilk, Mariusz Kleć, Krzysztof Szklanny, Szymon Marszałkowski
Automatic Speech Recognition Large Corpus Polish Language Open Corpus

October 30, 2023

Skywork: A More Open Bilingual Foundation Model
Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
Large Language Model Large Corpus Bilingual Model Open Corpus

August 8, 2023

SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore
Sewon Min, Suchin Gururangan, Eric Wallace, Hannaneh Hajishirzi, Noah A. Smith, Luke Zettlemoyer
Language Model Sentence Level Non Parametric Open Corpus Liability Inducing Text

May 18, 2023

Advancing Full-Text Search Lemmatization Techniques with Paradigm Retrieval from OpenCorpora
Dmitriy Kalugin-Balashov
Contextual Lemmatization Fundamental Lemma Open Corpus

August 29, 2022

Extracting Mathematical Concepts from Text
Jacob Collard, Valeria de Paiva, Brendan Fong, Eswaran Subrahmanian
Text Modality Category Theory Mathematical Text Open Corpus Term Extraction Mathematical Entity

June 15, 2022

Collaborative Knowledge Graph Fusion by Exploiting the Open Corpus
Yue Wang, Yao Wan, Lu Bai, Lixin Cui, Zhuo Xu, Ming Li, Philip S. Yu, Edwin R Hancock
Knowledge Graph Event Extraction Open Corpus Relation Alignment

June 8, 2022

The Open corpus of the Veps and Karelian languages: overview and applications
Tatyana Boyko, Nina Zaitseva, Natalia Krizhanovskaya, Andrew Krizhanovsky, Irina Novak, Nataliya Pellinen, Aleksandra Rodionova
Financial Application Large Corpus Open Corpus

December 20, 2021

Learning Semi-Structured Representations of Radiology Reports
Tamara Katic, Martin Pavlovski, Danijela Sekulic, Slobodan Vucetic
Large Corpus Radiology Report Structured Representation Open Corpus