Harmful Unlearning

Harmful unlearning, also known as machine unlearning, aims to remove specific data or knowledge from trained machine learning models, particularly large language models (LLMs), without complete retraining. Current research focuses on developing effective unlearning algorithms, often employing techniques like gradient-based methods, knowledge distillation, and adversarial training, across various model architectures including LLMs and diffusion models. This field is crucial for addressing privacy concerns, mitigating biases, and enhancing the safety and robustness of AI systems, impacting both data protection regulations and the trustworthiness of AI applications.

Papers

October 30, 2024

Attribute-to-Delete: Machine Unlearning via Datamodel Matching
Kristian Georgiev, Roy Rinberg, Sung Min Park, Shivam Garg, Andrew Ilyas, Aleksander Madry, Seth Neel
Pre Trained Model Machine Unlearning Unlearning Framework Harmful Unlearning Data Model Attribute Editing

October 29, 2024

Learning and Unlearning of Fabricated Knowledge in Language Models
Chen Sun, Nolan Andrew Miller, Andrey Zhmoginov, Max Vladymyrov, Mark Sandler
Large Language Model Language Model LeArning Abstract Harmful Unlearning Language Model Hallucination

October 22, 2024

UnStar: Unlearning with Self-Taught Anti-Sample Reasoning for LLMs
Yash Sinha, Murari Mandal, Mohan Kankanhalli
Medical LLM Unlearning Framework Harmful Unlearning Unlearning Method Star Model Self Reasoning

October 19, 2024

Evaluating Deep Unlearning in Large Language Models
Ruihan Wu, Chhavi Yadav, Russ Salakhutdinov, Kamalika Chaudhuri
Unlearning Framework Harmful Unlearning Unlearning Method Unlearning Evaluation

October 16, 2024

Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts
Hongcheng Gao, Tianyu Pang, Chao Du, Taihang Hu, Zhijie Deng, Min Lin
Diffusion Model Concept Identification Harmful Unlearning Unlearned Model Diffusion Generation

October 13, 2024

Efficient Federated Unlearning under Plausible Deniability
Ayush K. Varshney, Vicenç Torra
Machine Unlearning Harmful Unlearning Federated Unlearning Strategic Deception

October 9, 2024

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning
Chongyu Fan, Jiancheng Liu, Licong Lin, Jinghan Jia, Ruiqi Zhang, Song Mei, Sijia Liu
Large Language Model Unlearning Framework Preference Optimization Harmful Unlearning

October 8, 2024

Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning
Saemi Moon, Minjong Lee, Sangdon Park, Dongwoo Kim
Pre Trained Model Text to Image Diffusion Model Harmful Unlearning Unlearning Method Unlearned Model

October 4, 2024

A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
Yan Scholten, Stephan Günnemann, Leo Schwinn
Alignment Problem Bayesian Perspective Harmful Unlearning Model Evaluation Deterministic Algorithm Probability Based Evaluation

October 1, 2024

Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge Unlearning
Shota Takashiro, Takeshi Kojima, Andrew Gambardella, Qi Cao, Yusuke Iwasawa, Yutaka Matsuo
Large Language Model Language Model Harmful Unlearning Top Two Answer Fine Tuned Large Language Model Contextual Knowledge Knowledge Unlearning

September 26, 2024

An Adversarial Perspective on Machine Unlearning for AI Safety
Jakub Łucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tramèr, Javier Rando
Jailbreak Attack Machine Unlearning Harmful Unlearning AI Safety Unlearning Method Adversarial Perspective

September 15, 2024

Rewind-to-Delete: Certified Machine Unlearning for Nonconvex Functions
Siqiao Mu, Diego Klabjan
Machine Unlearning Harmful Unlearning Non Convex Loss Function Non Convex Objective Convex Loss Function Nonconvex Function

September 9, 2024

Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models
Aakash Sen Sharma, Niladri Sarkar, Vikram Chundawat, Ankur A Mali, Murari Mandal
Diffusion Model Evaluation Metric Harmful Unlearning Critical Review Unlearning Method Unlearned Model Digital STEALTH Metric Concept Removal

September 4, 2024

UnLearning from Experience to Avoid Spurious Correlations
Jeff Mitchell, Jesús Martínez del Rincón, Niall McLaughlin
Deep Neural Network Training Data Spurious Correlation Harmful Unlearning eXperience Report Classification Model Classification Problem

August 12, 2024

On Effects of Steering Latent Representation for Large Language Model Unlearning
Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue
Mixed Effect Unlearning Framework Harmful Unlearning Unlearned Model Steering Vector Representation Forgetting

August 8, 2024

UNLEARN Efficient Removal of Knowledge in Large Language Models
Tyler Lizzo, Larry Heck
Large Language Model Knowledge Based Unlearning Framework Harmful Unlearning Knowledge Enhancement Specific Knowledge

August 3, 2024

Controllable Unlearning for Image-to-Image Generative Models via $\varepsilon$-Constrained Optimization
Xiaohua Feng, Chaochao Chen, Yuyuan Li, Li Zhang
Generative Model Optimization Purpose Machine Unlearning Unlearning Framework Harmful Unlearning Image to Image

July 25, 2024

Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models
Haoyu Tang, Ye Liu, Xukai Liu, Kai Zhang, Yanghai Zhang, Qi Liu, Enhong Chen
Training Data Machine Unlearning Generative Language Model Unlearning Framework Harmful Unlearning Knowledge Unlearning Training Based Model Refinement Contrastive Unlearning

July 16, 2024

One-Shot Unlearning of Personal Identities
Thomas De Min, Subhankar Roy, Massimiliano Mancini, Stéphane Lathuilière, Elisa Ricci
Training Data Anti Forgetting Machine Unlearning Harmful Unlearning Identity Generation

July 15, 2024

Learning to Unlearn for Robust Machine Unlearning
Mark He Huang, Lin Geng Foo, Jun Liu
LeArning Abstract Strong Generalization Unlearning Framework Harmful Unlearning Meta Optimization Robust Unlearning Gradient Harmonization