Moral Bias

Moral bias in artificial intelligence, particularly large language models (LLMs), is a burgeoning research area focused on identifying and mitigating unfair or discriminatory outputs stemming from biases in training data and model architecture. Current research investigates how LLMs reflect and amplify existing societal biases across different languages and cultures, employing various techniques including analyzing model responses to ethical dilemmas and comparing them to human judgments from diverse groups. Understanding and addressing these biases is crucial for ensuring fairness, transparency, and ethical deployment of AI systems across various applications, ranging from content moderation to decision-support tools.

Papers

November 23, 2024

"Moralized" Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks
Libo Wang
Jailbreak Attack Guardrail Model Box Testing Moral Bias

November 14, 2024

The Moral Foundations Weibo Corpus
Renjie Cao, Miaoyan Hu, Jiahan Wei, Baha Ihnaini
Implicit Sentiment Moral Reasoning Moral Bias

October 17, 2024

BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models
Isack Lee, Haebin Seong
Large Language Model AI System Jailbreak Attack Social Bias Safety Alignment Malicious Traffic Common Bias Moral Bias

July 21, 2024

Decoding Multilingual Moral Preferences: Unveiling LLM's Biases Through the Moral Machine Experiment
Karina Vida, Fabian Damken, Anne Lauscher
Topic Bias Moral Judgment Moral Bias Moral Machine

April 29, 2024

Ethical Reasoning and Moral Value Alignment of LLMs Depend on the Language we Prompt them in
Utkarsh Agarwal, Kumar Tanmay, Aditi Khandelwal, Monojit Choudhury
Large Language Model Human Language Moral Judgment Moral Value Moral Bias Ethical Reasoning

February 16, 2024

Whose Emotions and Moral Sentiments Do Language Models Reflect?
Zihao He, Siyi Guo, Ashwin Rao, Kristina Lerman
Language Model Experienced Emotion Left Leaning Moral Bias Emotion Alignment

December 8, 2023

Assessing LLMs for Moral Value Pluralism
Noam Benkler, Drisana Mosaphir, Scott Friedman, Andrew Smart, Sonja Schmer-Galunder
Large Language Model Cultural Bias Moral Value Moral Bias Value Survey

November 27, 2023

Interpretation modeling: Social grounding of sentences by reasoning over their implicit moral judgments
Liesbeth Allein, Maria Mihaela Truşcǎ, Marie-Francine Moens
Natural Language Processing Abstract Interpretation Online Discourse Non Pun Sentence Model Interpretation Moral Bias Generative Interpretation

November 20, 2023

Measuring and Mitigating Biases in Motor Insurance Pricing
Mulah Moriah, Franck Vermet, Arthur Charpentier
Gender Information Measurement System Mitigating Bias Moral Bias Insurance Pricing Equitable Healthcare System

August 1, 2023

Beneficent Intelligence: A Capability Approach to Modeling Benefit, Assistance, and Associated Moral Failures through AI Systems
Alex John London, Hoda Heidari
Artificial Intelligence AI System Cognitive Intelligence AI Ethic Ethical Implication Moral Bias Capability Based

July 28, 2023

LUCID-GAN: Conditional Generative Models to Locate Unfairness
Andres Algaba, Carmen Mazijn, Carina Prunkl, Jan Danckaert, Vincent Ginis
Conditional Generative Moral Bias Bias Detection Method

June 2, 2023

Knowledge of cultural moral norms in large language models
Aida Ramezani, Yang Xu
Large Language Model Knowledge Based Moral Bias

November 14, 2022

Speaking Multiple Languages Affects the Moral Bias of Language Models
Katharina Hämmerl, Björn Deiseroth, Patrick Schramowski, Jindřich Libovický, Constantin A. Rothkopf, Alexander Fraser, Kristian Kersting
Language Model Multilingual Model Multilingual Language Model Multiple Language Moral Bias

September 24, 2022

Moral Mimicry: Large Language Models Produce Moral Rationalizations Tailored to Political Identity
Gabriel Simmons
Political Orientation Moral Bias Moral Concept

April 6, 2022

The Moral Integrity Corpus: A Benchmark for Ethical Dialogue Systems
Caleb Ziems, Jane A. Yu, Yi-Chia Wang, Alon Halevy, Diyi Yang
New Benchmark Conversational Agent Open Domain Moral Judgment Moral Bias

November 3, 2021

Fair-SSL: Building fair ML Software with less data
Joymallya Chakraborty, Suvodeep Majumder, Huy Tu
Semi Supervised Fair Machine Learning FAir Classifier SSL Algorithm Less Data Moral Bias Bias Mitigation Algorithm