Toxicity Detection Model

Toxicity detection models aim to automatically identify harmful language in text, focusing on improving accuracy and interpretability across diverse contexts like social media and user-AI interactions. Current research emphasizes developing more robust models, often based on transformer architectures, that are less susceptible to adversarial attacks and better equipped to handle nuanced forms of toxicity, including implicit bias and subtle triggers. This work is crucial for creating safer online environments and mitigating the spread of harmful content, with implications for content moderation, chatbot development, and the broader study of algorithmic bias.

Papers

June 21, 2024

ToVo: Toxicity Taxonomy via Voting
Tinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen
Data Set Dataset Creation Toxic Language Detection Toxic Speech Detection Toxicity Detection Model Toxicity Classification

December 4, 2023

Characterizing Large Language Model Geometry Solves Toxicity Detection and Generation
Randall Balestriero, Romain Cosentino, Sarath Shekkizhar
Large Language Model Language Model Faithful Generation Internal Representation Toxicity Detection Model

October 26, 2023

ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in Real-World User-AI Conversation
Zi Lin, Zihan Wang, Yongqi Tong, Yangkun Wang, Yuxin Guo, Yujia Wang, Jingbo Shang
Conversational AI Toxicity Detection Non Toxic Toxic Text Toxicity Detection Datasets Overcoming Challenge Toxicity Detection Model

July 18, 2023

Automated Ableism: An Exploration of Explicit Disability Biases in Sentiment and Toxicity Analysis Models
Pranav Narayanan Venkit, Mukund Srinath, Shomir Wilson
Environment Exploration Social Bias Implicit Sentiment Toxicity Detection Bias Detection Algorithmic Unfairness Toxicity Detection Model

March 1, 2023

ToxVis: Enabling Interpretability of Implicit vs. Explicit Toxicity Detection Models with Interactive Visualization
Uma Gunturi, Xiaohan Ding, Eugenia H. Rho
Inherent Interpretability Hate Speech Interactive Visualization Hateful Content Implicit Language Online Hate Toxicity Detection Model

May 5, 2022

Robust Conversational Agents against Imperceptible Toxicity Triggers
Ninareh Mehrabi, Ahmad Beirami, Fred Morstatter, Aram Galstyan
Adversarial Attack Non Toxic Language Generation Model Toxicity Detection Model

Toxicity Detection Model

Papers

ToVo: Toxicity Taxonomy via Voting

Characterizing Large Language Model Geometry Solves Toxicity Detection and Generation

ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in Real-World User-AI Conversation

Automated Ableism: An Exploration of Explicit Disability Biases in Sentiment and Toxicity Analysis Models

ToxVis: Enabling Interpretability of Implicit vs. Explicit Toxicity Detection Models with Interactive Visualization

Robust Conversational Agents against Imperceptible Toxicity Triggers