Backdoor Data

Backdoor data poisoning attacks compromise machine learning models by subtly embedding malicious triggers within training data, causing the model to produce incorrect outputs under specific conditions while appearing normal otherwise. Current research focuses on detecting these poisoned datasets, often leveraging prediction uncertainty analysis or geometric data properties to identify suspicious samples, and developing robust training methods that mitigate the impact of backdoor triggers, including techniques that focus on specific model layers or frequency space manipulations. Understanding and defending against backdoor attacks is crucial for ensuring the reliability and security of machine learning systems across various applications, from large language models to federated learning environments.

Papers

August 30, 2024

Safety Layers in Aligned Large Language Models: The Key to LLM Security
Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li
Language Model LLM Safety LLM Alignment Safety Layer Backdoor Data

June 9, 2024

PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection
Wei Li, Pin-Yu Chen, Sijia Liu, Ren Wang
Backdoor Attack Prediction Uncertainty Backdoor Detection Backdoor Sample Backdoor Data

June 5, 2024

BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents
Yifei Wang, Dizhan Xue, Shengjie Zhang, Shengsheng Qian
Large Language Model Backdoor Attack LLM Agent Object Insertion Backdoor Data

May 10, 2024

Concealing Backdoor Model Updates in Federated Learning by Trigger-Optimized Data Poisoning
Yujie Zhang, Neil Gong, Michael K. Reiter
Backdoor Attack Data Poisoning Backdoor Data

March 15, 2024

Backdoor Secrets Unveiled: Identifying Backdoor Data with Optimized Scaled Prediction Consistency
Soumyadeep Pal, Yuguang Yao, Ren Wang, Bingquan Shen, Sijia Liu
Backdoor Poisoning Attack Consistent Prediction Backdoor Data

February 19, 2024

Acquiring Clean Language Models from Backdoor Poisoned Datasets by Downscaling Frequency Space
Zongru Wu, Zhuosheng Zhang, Pengzhou Cheng, Gongshen Liu
Language Model Statistical Downscaling Backdoor Learning Backdoor Data

January 27, 2024

Shortcuts Everywhere and Nowhere: Exploring Multi-Trigger Backdoor Attacks
Yige Li, Jiabo He, Hanxun Huang, Jun Sun, Xingjun Ma, Yu-Gang Jiang
Backdoor Attack Backdoor Data Trigger Attack Multiple Adversary

October 16, 2023

Demystifying Poisoning Backdoor Attacks from a Statistical Perspective
Ganghua Wang, Xun Xian, Jayanth Srinivasa, Ashish Kundu, Xuan Bi, Mingyi Hong, Jie Ding
Backdoor Attack Backdoor Poisoning Attack Effective Backdoor Attack Backdoor Data

October 19, 2022

Training set cleansing of backdoor poisoning by self-supervised representation learning
H. Wang, S. Karami, O. Dia, H. Ritter, E. Emamjomeh-Zadeh, J. Chen, Z. Xiang, D. J. Miller, G. Kesidis
Training Data Backdoor Attack Self Supervised Representation Learning Backdoor Poisoning Attack Backdoor Data

October 13, 2022

COLLIDER: A Robust Training Framework for Backdoor Data
Hadi M. Dolatabadi, Sarah Erfani, Christopher Leckie
Deep Neural Network Adversarial Training Backdoor Attack Robust Training Backdoor Learning Backdoor Data

October 12, 2022

Trap and Replace: Defending Backdoor Attacks by Trapping Them into an Easy-to-Replace Subnetwork
Haotao Wang, Junyuan Hong, Aston Zhang, Jiayu Zhou, Zhangyang Wang
Backdoor Attack Backdoor Defense Field Trap Backdoor Data

June 21, 2022

Natural Backdoor Datasets
Emily Wenger, Roma Bhattacharjee, Arjun Nitin Bhagoji, Josephine Passananti, Emilio Andere, Haitao Zheng, Ben Y. Zhao
Backdoor Trigger Backdoor Data Physical Backdoor Attack Natural Backdoor