Trojaned Model

Trojaned models, malicious machine learning models containing hidden triggers that activate unintended behavior, pose a significant security risk across various applications. Current research focuses on detecting these attacks in large language models (LLMs) and convolutional neural networks (CNNs), investigating methods like analyzing attention mechanisms, identifying weight-based signatures, and leveraging explainability techniques. The difficulty of reliably detecting trojans, particularly in LLMs, and the development of adaptive adversarial attacks highlight the need for robust defense mechanisms and improved model interpretability to ensure the trustworthiness of AI systems. This research is crucial for safeguarding the integrity and reliability of AI in high-stakes domains.

Papers

June 12, 2024

Analyzing Multi-Head Attention on Trojan BERT Models
Jingwei Wang
Sentiment Analysis Human Attention Transformer Model Multi Head Attention Trojaned Model

April 21, 2024

Trojan Detection in Large Language Models: Insights from The Trojan Detection Challenge
Narek Maloyan, Ekansh Verma, Bulat Nutfullin, Bislan Ashinov
DCU Insight AQ Trojan Attack Trojan Detection Trojaned Model

February 23, 2024

On Trojan Signatures in Large Language Models of Code
Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour
Real World Code Trojaned Model

February 12, 2024

Game of Trojans: Adaptive Adversaries Against Output-based Trojaned-Model Detectors
Dinuka Sahabandu, Xiaojun Xu, Arezoo Rajabi, Luyao Niu, Bhaskar Ramasubramanian, Bo Li, Radha Poovendran
Game Content Trojan Detection Adaptive Adversary Deep Neural Network Parameter Neural Trojan Trojaned Model

December 16, 2023

TrojFair: Trojan Fairness Attacks
Mengxin Zheng, Jiaqi Xue, Yi Sheng, Lei Yang, Qian Lou, Lei Jiang
Neural Network Fairness Attack Speaker Verification Fairness Trojaned Model

June 8, 2023

TRIGS: Trojan Identification from Gradient-based Signatures
Mohamed E. Hussein, Sudharshan Subramaniam Janakiraman, Wael AbdAlmageed
Deep Convolutional Neural Network Trojan Detection Signature Analysis Trojaned Model

September 7, 2022

Defending Against Backdoor Attack on Graph Nerual Network by Explainability
Bingchen Jiang, Zhao Li
Backdoor Attack High Explainability Backdoor Detection Attack Algorithm Trojaned Model

May 13, 2022

A Study of the Attention Abnormality in Trojaned BERTs
Weimin Lyu, Songzhu Zheng, Tengfei Ma, Chao Chen
Study Feature Trojan Attack Trojan Detection Trojaned Model