the latest in aiBeta

Backdoor Removal

Backdoor removal focuses on mitigating malicious modifications to machine learning models, where attackers embed "triggers" causing unintended behavior. Current research emphasizes developing techniques to identify and neutralize these triggers, often employing methods like unlearning, relearning, and adversarial training across diverse model architectures including Convolutional Neural Networks (CNNs), Graph Neural Networks (GNNs), and Large Language Models (LLMs). Effective backdoor removal is crucial for ensuring the trustworthiness and security of AI systems deployed in sensitive applications, ranging from medical diagnosis to autonomous vehicles.

16papers

Papers

April 29, 2025

Erased but Not Forgotten: How Backdoors Compromise Concept Erasure
Jonas Henry Grebe, Tobias Braun, Marcus Rohrbach, Anna Rohrbach
TU Darmstadt & hessian.AI
Backdoor Removal Erasure Method Text to Image Diffusion Model Data Poisoning Deep Attack

December 1, 2024

Perturb and Recover: Fine-tuning for Effective Backdoor Removal from CLIP
Naman Deep Singh, Francesco Croce, Matthias Hein
Vision Language Model Backdoor Attack Prompt Recovery Backdoor Removal Image Text Pair Fine Tuning Single CLIP Text Image Pair

November 5, 2024

Oblivious Defense in ML Models: Backdoor Removal without Detection
Shafi Goldwasser, Jonathan Shafer, Neekon Vafa, Vinod Vaikuntanathan
Machine Learning Backdoor Removal Ground Truth Machine Learning Model Data Detection Backdoor Attack Oblivious Adversary

October 15, 2024

BeniFul: Backdoor Defense via Middle Feature Analysis for Deep Neural Networks
Xinfu Li, Junying Zhang, Xindi Ma
Backdoor Defense Backdoor Removal Network Programming Deeper Network Intermediate Feature Input Level Backdoor Detection

October 2, 2024

"No Matter What You Do": Purifying GNN Models via Backdoor Unlearning
Jiale Zhang, Chengcheng Zhu, Bosen Rao, Hao Sui, Xiaobing Sun, Bing Chen, Chunyi Zhou, Shouling Ji
Backdoor Defense Backdoor Removal Backdoor Learning Graph Neural Network Backdoor Attack

September 1, 2024

Fisher Information guided Purification against Backdoor Attacks
Nazmul Karim, Abdullah Al Arafat, Adnan Siraj Rakin, Zhishan Guo, Nazanin Rahnavard
Backdoor Policy Backdoor Attack Fisher Information Backdoor Removal Backdoor Purification Backdoor Defense

August 8, 2024

Eliminating Backdoors in Neural Code Models for Secure Code Understanding
Weisong Sun, Yuchen Chen, Chunrong Fang, Yebo Feng, Yuan Xiao, An Guo, Quanjun Zhang, Yang Liu, Baowen Xu, Zhenyu Chen
Backdoor Attack Backdoor Removal Insecure Code Neural Code Model Backdoor Defense Trigger Inversion

May 23, 2024

Unified Neural Backdoor Removal with Only Few Clean Samples through Unlearning and Relearning
Nay Myat Min, Long H. Pham, Jun Sun
Backdoor Attack Harmful Unlearning Backdoor Removal Neural Backdoor

May 13, 2024

Simulate and Eliminate: Revoke Backdoors for Generative Large Language Models
Haoran Li, Yulin Chen, Zihao Zheng, Qi Hu, Chunkit Chan, Heshan Liu, Yangqiu Song
Backdoor Removal Generative Large Language Model Language Model Backdoor Attack

November 25, 2023

Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective
Sahil Verma, Gantavya Bhatt, Avi Schwarzschild, Soumye Singhal, Arnav Mohanty Das, Chirag Shah, John P Dickerson, Pin-Yu Chen, Jeff Bilmes
Backdoor Threat Backdoor Attack Backdoor Behavior Backdoor Defense Backdoor Removal

June 30, 2023

Efficient Backdoor Removal Through Natural Gradient Fine-tuning
Nazmul Karim, Abdullah Al Arafat, Umar Khalid, Zhishan Guo, Naznin Rahnavard
Backdoor Removal Deep Neural Network Parameter Loss Surface Backdoor Policy Backdoor Purification Backdoor Defense

June 13, 2023

DHBE: Data-free Holistic Backdoor Erasing in Deep Neural Networks via Restricted Adversarial Distillation
Zhicong Yan, Shenghong Li, Ruijie Zhao, Yuan Tian, Yuanyuan Zhao
Backdoor Learning Deep Neural Network Backdoor Attack Adversarial Distillation Backdoor Removal

May 24, 2023

Reconstructive Neuron Pruning for Backdoor Defense
Yige Li, Xixiang Lyu, Xingjun Ma, Nodens Koren, Lingjuan Lyu, Bo Li, Yu-Gang Jiang
Backdoor Removal Neuron Pruning Neural Backdoor Backdoor Defense Backdoor Detection

April 20, 2023

Get Rid Of Your Trail: Remotely Erasing Backdoors in Federated Learning
Manaar Alam, Hithem Lamri, Michail Maniatakos
Backdoor Attack Backdoor Removal Root to Leaf Path Active Removal Resilient Backdoor

November 2, 2022

Backdoor Defense via Suppressing Model Shortcuts
Sheng Yang, Yiming Li, Yong Jiang, Shu-Tao Xia
Shortcut Pattern Avoidance Loss Hidden Backdoor Backdoor Trigger Backdoor Removal Backdoor Defense Backdoor Attack

August 5, 2022

Data-free Backdoor Removal based on Channel Lipschitzness
Runkai Zheng, Rongjun Tang, Jianze Li, Li Liu
Backdoor Removal Backdoor Attack Lipschitz Bound Backdoor Behavior

July 10, 2022

One-shot Neural Backdoor Erasing via Adversarial Weight Masking
Shuwen Chai, Jinghui Chen
Backdoor Removal Neural Backdoor Deep Neural Network Training Data Adversarial Mask

June 18, 2022

DECK: Model Hardening for Defending Pervasive Backdoors
Guanhong Tao, Yingqi Liu, Siyuan Cheng, Shengwei An, Zhuo Zhang, Qiuling Xu, Guangyu Shen, Xiangyu Zhang
Backdoor Removal Full Model

June 14, 2022

Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free Backdoor Removal via Stabilized Model Inversion
Si Chen, Yi Zeng, Jiachen T. Wang, Won Park, Xun Chen, Lingjuan Lyu, Zhuoqing Mao, Ruoxi Jia
Blessing Generation Model Inversion Backdoor Removal Reversal Curse

February 13, 2022

Progressive Backdoor Erasing via connecting Backdoor and Adversarial Attacks
Bingxu Mu, Zhenxing Niu, Le Wang, Xue Wang, Rong Jin, Gang Hua
Backdoor Attack Backdoor Removal Adversarial Attack Untargeted Adversarial Attack