English Dataset

English datasets, crucial for training and evaluating natural language processing (NLP) models, are increasingly being augmented and complemented by multilingual resources to address biases and improve performance in non-English languages. Current research focuses on developing new multilingual benchmarks for various NLP tasks (e.g., question answering, named entity recognition, sentiment analysis), often leveraging large language models (LLMs) for data generation and cross-lingual transfer learning techniques to bridge the resource gap. This work is vital for advancing NLP capabilities beyond English-centric applications and fostering more equitable and inclusive language technologies globally.

Papers

September 15, 2023

Advancing the Evaluation of Traditional Chinese Language Models: Towards a Comprehensive Benchmark Suite
Chan-Jan Hsu, Chang-Le Liu, Feng-Ting Liao, Po-Chun Hsu, Yi-Chang Chen, Da-shan Shiu
Large Language Model Language Model Global Evaluation Language Understanding English Dataset Benchmark Suite Chinese Language Model

March 30, 2023

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling
Joey Öhman, Severine Verlinden, Ariel Ekgren, Amaru Cuba Gyllensten, Tim Isbister, Evangelia Gogoulou, Fredrik Carlsson, Magnus Sahlgren
High Quality English Dataset Tuberculosis Treatment

December 23, 2022

CinPatent: Datasets for Patent Classification
Minh-Tien Nguyen, Nhung Bui, Manh Tran-Tien, Linh Le, Huy-The Vu
Data Set Patent Text Multi Label Text Classification English Dataset Japanese Dataset Patent Classification

December 14, 2022

Building and Evaluating Universal Named-Entity Recognition English corpus
Diego Alves, Gaurish Thakkar, Marko Tadić
Large Corpus Named Entity Recognition Building PCC English Dataset

October 25, 2022

IFDID: Information Filter upon Diversity-Improved Decoding for Diversity-Faithfulness Tradeoff in NLG
Han Meng, Xiaosong He, Zexing Chen, Feng Zhou
Language Generation Diversity Awareness Natural Language Generation Quality Diversity Online Filtering English Dataset Enhancement Model

October 10, 2022

Assessing Neural Referential Form Selectors on a Realistic Multilingual Dataset
Guanyi Chen, Fahime Same, Kees van Deemter
Real World Multilingual Dataset English Dataset Expression Generation OntoNotes Annotation

July 18, 2022

GOAL: Towards Benchmarking Few-Shot Sports Game Summarization
Jiaan Wang, Tingyi Zhang, Haoxiang Shi
Pseudo Goal English Dataset Sport Game Summarization

May 20, 2022

Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining for Task-Oriented Dialog
Chia-Chien Hung, Anne Lauscher, Ivan Vulić, Simone Paolo Ponzetto, Goran Glavaš
Cross Lingual Transfer Task Oriented Multilingual Dataset English Dataset Task Oriented Dialog Shot Cross Lingual

May 6, 2022

Bridging the Domain Gap for Stance Detection for the Zulu language
Gcinizwe Dlamini, Imad Eddine Ibrahim Bekkouch, Adil Khan, Leon Derczynski
Domain Adaptation Machine Translation Stance Detection Domain Gap African Language English Dataset

April 19, 2022

IndicXNLI: Evaluating Multilingual Inference for Indian Languages
Divyanshu Aggarwal, Vivek Gupta, Anoop Kunchukuttan
Cross Lingual Transfer Indian Language English Dataset Hindi English Cross Lingual Natural Language Inference NLI Datasets

March 30, 2022

An Overview of Indian Language Datasets used for Text Summarization
Shagun Sinha, Girish Nath Jha
Text Summarization Indian Language High Resource Language English Dataset Hindi English

March 24, 2022

Multitasking Framework for Unsupervised Simple Definition Generation
Cunliang Kong, Yun Chen, Hengyuan Zhang, Liner Yang, Erhong Yang
English Dataset Chinese Dataset Multi TASK Arbitrary Natural Language Text Definition Generation

March 4, 2022

IISERB Brains at SemEval 2022 Task 6: A Deep-learning Framework to Identify Intended Sarcasm in English
Tanuj Singh Shekhawat, Manoj Kumar, Udaybhan Rathore, Aditya Joshi, Jasabanta Patro
Related Task Deep Learning Framework Sarcastic Text English Dataset

January 26, 2022

Addressing Issues of Cross-Linguality in Open-Retrieval Question Answering Systems For Emergent Domains
Alon Albalak, Sharon Levy, William Yang Wang
Question Answering Cross Lingual Multilingual Dataset Target Domain English Dataset Cross Lingual Open Retrieval Question

December 18, 2021

Cascading Adaptors to Leverage English Data to Improve Performance of Question Answering for Low-Resource Languages
Hariom A. Pandya, Bhavik Ardeshna, Dr. Brijesh S. Bhatt
System Performance Low Resource Language Yes No Question Adapter Module Multilingual Transformer English Dataset Pre Trained Multilingual Model