Twitter Dataset

Twitter datasets are collections of tweets used for various natural language processing (NLP) research tasks, primarily focused on understanding and mitigating misinformation, analyzing public sentiment, and detecting online manipulation. Current research utilizes transformer-based models like BERT and RoBERTa, along with other deep learning architectures, for tasks such as sentiment classification, hate speech detection, and the identification of manipulated or misleading information. These datasets and the resulting models have significant implications for improving the trustworthiness of online information, informing public health initiatives, and enhancing our understanding of social dynamics and political polarization.

Papers

December 18, 2022

A Robust Semantic Frame Parsing Pipeline on a New Complex Twitter Dataset
Yu Wang, Hongxia Jin
Spoken Language Understanding Twitter Dataset Semantic Frame Frame Semantic

October 13, 2022

Early Discovery of Disappearing Entities in Microblogs
Satoshi Akasaki, Naoki Yoshinaga, Masashi Toyoda
Scientific Discovery Twitter Dataset Unseen Entity Distant Supervision

October 12, 2022

Annotating Norwegian Language Varieties on Twitter for Part-of-Speech
Petter Mæhlum, Andre Kåsen, Samia Touileb, Jeremy Barnes
Natural Language Processing Social Medium Twitter Resource Twitter Dataset Part of Speech Twitter Data Dialect Speaker

September 17, 2022

News Headlines Dataset For Sarcasm Detection
Rishabh Misra
Sarcasm Detection Twitter Dataset Sarcastic Text News Dataset

September 14, 2022

BERT-based Ensemble Approaches for Hate Speech Detection
Khouloud Mnassri, Praboda Rajapaksha, Reza Farahbakhsh, Noel Crespi
Hate Speech Hate Speech Detection Twitter Dataset Ensemble BERT

September 13, 2022

Non-Parametric Temporal Adaptation for Social Media Topic Classification
Fatemehsadat Mireshghallah, Nikolai Vogler, Junxian He, Omar Florez, Ahmed El-Kishky, Taylor Berg-Kirkpatrick
Dense Retrieval Social Medium Data Twitter Dataset Temporal Adaptation Social Medium Text Classification Hashtag Prediction

September 12, 2022

emojiSpace: Spatial Representation of Emojis
Moeen Mostafavi, Mahsa Pahlavikhah Varnosfaderani, Fateme Nikseresht, Seyed Ahmad Mansouri
Twitter Dataset Spatial Representation Word2Vec Model

September 8, 2022

5q032e@SMM4H'22: Transformer-based classification of premise in tweets related to COVID-19
Vadim Porvatov, Natalia Semenova
Natural Language Processing Transformer Based Covid 19 Twitter Tweet Twitter Dataset Premise Selection Annotated Tweet

September 7, 2022

Machine Learning-based Automatic Annotation and Detection of COVID-19 Fake News
Mohammad Majid Akhtar, Bibhas Sharma, Ishan Karunanayake, Rahat Masood, Muhammad Ikram, Salil S. Kanhere
Data Detection New Machine Covid 19 Fake News Detection Misinformation Detection Twitter Dataset Automatic Annotation

August 11, 2022

Top Gear or Black Mirror: Inferring Political Leaning From Non-Political Content
Ahmet Kurnaz, Scott A. Hale
Twitter Dataset Political Polarization Political Content Political Communication Political Leaning

July 20, 2022

July 18, 2022

Retweet-BERT: Political Leaning Detection Using Language Features and Information Diffusion on Social Networks
Julie Jiang, Xiang Ren, Emilio Ferrara
Social Network Twitter Dataset Information Diffusion Political Leaning Political Perspective Detection

July 11, 2022

TweetDIS: A Large Twitter Dataset for Natural Disasters Built using Weak Supervision
Ramya Tekumalla, Juan M. Banda
Weak Supervision Human Annotation Twitter Dataset Natural Disaster Tweet Text Silver Standard

June 16, 2022

Predicting Hate Intensity of Twitter Conversation Threads
Qing Meng, Tharun Suresh, Roy Ka-Wei Lee, Tanmoy Chakraborty
Hate Speech Twitter Dataset Online Hate Twitter Discourse

May 22, 2022

TWEET-FID: An Annotated Dataset for Multiple Foodborne Illness Detection Tasks
Ruofan Hu, Dongyu Zhang, Dandan Tao, Thomas Hartvigsen, Hao Feng, Elke Rundensteiner
Annotated Dataset Twitter Dataset Tweet Text Foodborne Illness Detection

April 21, 2022

Identifying and Characterizing Active Citizens who Refute Misinformation in Social Media
Yida Mu, Pu Niu, Nikolaos Aletras
Social Medium Twitter Dataset Weibo Dataset

April 15, 2022

Political Communities on Twitter: Case Study of the 2022 French Presidential Election
Hadi Abdine, Yanzhu Guo, Virgile Rennard, Michalis Vazirgiannis
Case Study Community Detection Twitter Resource Twitter Dataset Political Party

April 10, 2022

Decay No More: A Persistent Twitter Dataset for Learning Social Meaning
Chiyu Zhang, Muhammad Abdul-Mageed, El Moatez Billah Nagoudi
Social Medium Twitter Tweet Microbial Decomposition Twitter Dataset Social World Knowledge

April 7, 2022

Twitter Dataset on the Russo-Ukrainian War
Alexander Shevtsov, Christos Tzagkarakis, Despoina Antonakaki, Polyvios Pratikakis, Sotiris Ioannidis
Data Set Sentiment Analysis Twitter Tweet Topic Analysis Twitter Dataset Russo Ukrainian