Successful Adversarial Attack

Successful adversarial attacks exploit vulnerabilities in machine learning models by subtly altering inputs to cause misclassifications or undesired outputs. Current research focuses on developing more effective attack methods, particularly those that generate diverse and novel attacks across various model types, including large language models and image segmentation networks, often employing techniques like gradient-based optimization and reinforcement learning. Understanding and mitigating these attacks is crucial for ensuring the reliability and safety of AI systems across diverse applications, from autonomous vehicles to medical image analysis and online content moderation.

13papers

Papers

June 26, 2024

WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models
Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi+1
Jailbreak Attack Language Model Jailbreak Evaluation Visual Analogue Scale Human Team Red Teaming Synthetic Dataset Successful Adversarial Attack

June 24, 2024

Automated Adversarial Discovery for Safety Classifiers
Yash Kumar Lal, Preethi Lahoti, Aradhana Sinha, Yao Qin, Ananth Balashankar
Safety Classifier Adversarial Attack Successful Adversarial Attack

January 20, 2024

Susceptibility of Adversarial Attack on Medical Image Segmentation Models
Zhongxuan Wang, Leo Xu
Adversarial Attack Medical Image Segmentation Model Successful Adversarial Attack

November 14, 2023

Physical Adversarial Examples for Multi-Camera Systems
Ana Răduţoiu, Jan-Philipp Schulze, Philip Sperl, Konstantin Böttinger
Successful Adversarial Attack Multi Camera Multiple Camera Physical Adversarial Adversarial Example

August 29, 2023

Advancing Adversarial Robustness Through Adversarial Logit Update
Hao Xuan, Peican Zhu, Xingyu Li
Adversarial Training Successful Adversarial Attack Adversarial Robustness Adversarial Attack Adversarial Purification Adversarial Sample

May 18, 2023

Deep PackGen: A Deep Reinforcement Learning Framework for Adversarial Network Packet Generation
Soumyadeep Hore, Jalal Ghadermazi, Diwas Paudel, Ankit Shah, Tapas K. Das, Nathaniel D. Bastian
Successful Adversarial Attack Evasion Attack Network Intrusion Detection Adversarial Attack Adversarial Generation

March 24, 2023

How many dimensions are required to find an adversarial example?
Charles Godfrey, Henry Kvinge, Elise Bishoff, Myles Mckay, Davis Brown, Tim Doster, Eleanor Byler
Higher Dimension Adversarial Vulnerability Adversarial Example High Dimensional Space Successful Adversarial Attack

July 4, 2022

RAF: Recursive Adversarial Attacks on Face Recognition Using Extremely Limited Queries
Keshav Kasichainula, Hadi Mansourifar, Weidong Shi
Adversarial Attack Adversarial Example Face Recognition Successful Adversarial Attack

June 28, 2022

Collecting high-quality adversarial data for machine reading comprehension tasks with humans and models in the loop
Damian Y. Romero Diaz, Magdalena Anioł, John Culnan
Extractive Question Successful Adversarial Attack Full Model High Quality Real Human Machine Reading Comprehension Adversarial Data Annotation Study Adversarial Data Collection

June 24, 2022

Robustness of Explanation Methods for NLP Models
Shriya Atmakuri, Tejas Chheda, Dinesh Kandula, Nishant Yadav, Taesung Lee, Hessel Tuinhof
NLP Model Text Modality Textual Explanation Explanation Method Native Robustness Adversarial Robustness Successful Adversarial Attack

March 2, 2022

Adversarial Robustness of Neural-Statistical Features in Detection of Generative Transformers
Evan Crothers, Nathalie Japkowicz, Herna Viktor, Paula Branco
Adversarial Robustness Generated Text Data Detection Deep Learning Feature Generative Transformer Successful Adversarial Attack Adversarial Attack

January 29, 2022

Scale-Invariant Adversarial Attack for Evaluating and Enhancing Adversarial Defenses
Mengting Xu, Tao Zhang, Zhongnian Li, Daoqiang Zhang
Adversarial DEfense Successful Adversarial Attack Adversarial Defense Projected Gradient Descent Attack

November 22, 2021

Evaluating Adversarial Attacks on ImageNet: A Reality Check on Misclassification Classes
Utku Ozbulak, Maura Pintor, Arnout Van Messem, Wesley De Neve
Adversarial Attack Adversarial Learning Supervised ImageNet Successful Adversarial Attack ImageNet Hierarchy Reality Check Adversarial Example

Successful Adversarial Attack

Papers

WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

Automated Adversarial Discovery for Safety Classifiers

Susceptibility of Adversarial Attack on Medical Image Segmentation Models

Physical Adversarial Examples for Multi-Camera Systems

Advancing Adversarial Robustness Through Adversarial Logit Update

Deep PackGen: A Deep Reinforcement Learning Framework for Adversarial Network Packet Generation

How many dimensions are required to find an adversarial example?

RAF: Recursive Adversarial Attacks on Face Recognition Using Extremely Limited Queries

Collecting high-quality adversarial data for machine reading comprehension tasks with humans and models in the loop

Robustness of Explanation Methods for NLP Models

Adversarial Robustness of Neural-Statistical Features in Detection of Generative Transformers

Scale-Invariant Adversarial Attack for Evaluating and Enhancing Adversarial Defenses

Evaluating Adversarial Attacks on ImageNet: A Reality Check on Misclassification Classes