Privacy Neuron

Privacy neurons are specific neurons within large language models (LLMs) identified as responsible for memorizing and potentially leaking sensitive personal information. Current research focuses on developing methods to detect and neutralize these neurons, often employing adversarial training or direct neuron manipulation techniques to mitigate privacy risks. This work is crucial for improving the responsible development and deployment of LLMs, addressing significant concerns about data security and user privacy in AI applications.

Papers

May 16, 2024

Learnable Privacy Neurons Localization in Language Models
Ruizhe Chen, Tianxiang Hu, Yang Feng, Zuozhu Liu
Language Model Private Data Neuron Identification Privacy Neuron

October 31, 2023

DEPN: Detecting and Editing Privacy Neurons in Pretrained Language Models
Xinwei Wu, Junzhuo Li, Minghui Xu, Weilong Dong, Shuangzhi Wu, Chao Bian, Deyi Xiong
Data Detection Pretrained Language Model Privacy Neuron

Privacy Neuron

Papers

Learnable Privacy Neurons Localization in Language Models

DEPN: Detecting and Editing Privacy Neurons in Pretrained Language Models