Natural Adversarial Sample

Natural adversarial samples are inputs subtly altered to deceive machine learning models without noticeably changing their appearance to humans. Current research focuses on generating these samples, particularly for image and text data, using methods like evolutionary algorithms and probabilistic labeling to create realistic, yet adversarial, datasets. This work is crucial for evaluating and improving the robustness of AI systems across various applications, including healthcare and safety-critical systems, by moving beyond reliance on artificially generated adversarial examples that may not reflect real-world threats. The ultimate goal is to develop more resilient models capable of handling naturally occurring adversarial inputs.

Papers

October 18, 2024

NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan
Vision Language Model Visual Question Answering External Sample Linguistic Reasoning Natural Adversarial Sample

February 7, 2024

Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models!
Shashank Kotyan, Po-Yuan Mao, Pin-Yu Chen, Danilo Vasconcellos Vargas
Adversarial Sample Adversarial Image Diffusion Based Model Guardrail Model Natural Adversarial Sample

September 1, 2023

Curating Naturally Adversarial Datasets for Learning-Enabled Medical Cyber-Physical Systems
Sydney Pugh, Ivan Ruchkin, Insup Lee, James Weimer
Native Robustness Adversarial Example Adversarial Datasets Natural Adversarial Sample

March 19, 2022

Distinguishing Non-natural from Natural Adversarial Samples for More Robust Pre-trained Language Model
Jiayi Wang, Rongzhou Bao, Zhuosheng Zhang, Hai Zhao
Adversarial Attack Pre Trained Language Model Adversarial Sample Natural Adversarial Sample

Natural Adversarial Sample

Papers

NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models!

Curating Naturally Adversarial Datasets for Learning-Enabled Medical Cyber-Physical Systems

Distinguishing Non-natural from Natural Adversarial Samples for More Robust Pre-trained Language Model