Backdoor Detection

Backdoor detection in machine learning focuses on identifying malicious modifications to models that trigger unintended behavior when specific input patterns (triggers) are present. Current research emphasizes developing robust detection methods for various model architectures, including diffusion models, language models, and graph neural networks, often employing techniques like tensor decomposition, uncertainty analysis, and distribution inference to identify anomalies indicative of backdoors. The significance of this research lies in safeguarding the integrity and trustworthiness of machine learning systems across diverse applications, mitigating risks associated with compromised models in sensitive domains.

Papers

March 17, 2022

PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection and Mitigation in Deep Neural Networks
Yue Wang, Wenqing Li, Esha Sarkar, Muhammad Shafique, Michail Maniatakos, Saif Eddin Jabari
Deep Neural Network Backdoor Attack Faulty Negative Mitigation Backdoor Detection Coherence Modeling Imperceptible Attack

February 8, 2022

PolicyCleanse: Backdoor Detection and Mitigation in Reinforcement Learning
Junfeng Guo, Ang Li, Cong Liu
Reinforcement Learning Multi Agent Reinforcement Learning Backdoor Attack Faulty Negative Mitigation Backdoor Trigger Backdoor Detection Policy Improvement Trojan Horse

November 22, 2021

NTD: Non-Transferability Enabled Backdoor Detection
Yinshan Li, Hua Ma, Zhi Zhang, Yansong Gao, Alsharif Abuadbba, Anmin Fu, Yifeng Zheng, Said F. Al-Sarawi, Derek Abbott
Backdoor Attack Task Transferability Backdoor Detection Adversarial Trigger Transferable Backdoor Attack

Backdoor Detection

Papers

PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection and Mitigation in Deep Neural Networks

PolicyCleanse: Backdoor Detection and Mitigation in Reinforcement Learning

NTD: Non-Transferability Enabled Backdoor Detection