Red Teaming

Red teaming, in the context of artificial intelligence, involves adversarial testing of AI models, particularly large language models (LLMs) and increasingly multimodal models, to identify vulnerabilities and biases. Current research focuses on automating this process using techniques like reinforcement learning, generative adversarial networks, and novel scoring functions to create diverse and effective adversarial prompts or inputs that expose model weaknesses. This rigorous evaluation is crucial for improving the safety, robustness, and ethical implications of AI systems, informing both model development and deployment strategies across various applications.

Papers

July 17, 2024

AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases
Zhaorun Chen, Zhen Xiang, Chaowei Xiao, Dawn Song, Bo Li
Retrieval Augmented Generation Agent Smith Knowledge Base LLM Agent LLM Based Agent Red Teaming Backdoor Trigger

July 12, 2024

ASTPrompter: Weakly Supervised Automated Language Model Red-Teaming to Identify Likely Toxic Prompts
Amelia F. Hardy, Houjun Liu, Bernard Lange, Mykel J. Kochenderfer
Large Language Model Reinforcement Learning Preference Optimization Red Teaming Toxic Comment Frozen Language Model

July 10, 2024

The Human Factor in AI Red Teaming: Perspectives from Social and Collaborative Computing
Alice Qian Zhang, Ryland Shaw, Jacy Reese Anthis, Ashlee Milton, Emily Tseng, Jina Suh, Lama Ahmad, Ram Shankar Siva Kumar, Julian Posada, Benjamin Shestakofsky, Sarah T. Roberts, Mary L. Gray
Artificial Intelligence Synthesized View Red Teaming Adversarial Testing Collaborative Environment Human Factor

July 4, 2024

Automated Progressive Red Teaming
Bojian Jiang, Yi Jing, Tianhao Shen, Tong Wu, Qing Yang, Deyi Xiong
Instruction Tuning Adversarial Prompt Red Teaming LLM Safety

June 26, 2024

WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models
Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri
Language Model Visual Analogue Scale Jailbreak Attack Synthetic Dataset Red Teaming Successful Adversarial Attack Human Team Jailbreak Evaluation

June 25, 2024

Leveraging Reinforcement Learning in Red Teaming for Advanced Ransomware Attack Simulations
Cheng Wang, Christopher Redino, Ryan Clark, Abdul Rahman, Sal Aguinaga, Sathvik Murli, Dhruv Nandakumar, Roland Rao, Lanxiao Huang, Daniel Radke, Edward Bowen
Reinforcement Learning Red Teaming Attack Strategy Attack Method Defense Strategy Ransomware Attack Ransomware Attack Modeling Technique

June 17, 2024

June 16, 2024

garak: A Framework for Security Probing Large Language Models
Leon Derczynski, Erick Galinkin, Jeffrey Martin, Subho Majumdar, Nanna Inie
Large Language Model Adversarial Attack New Framework Natural Language Red Teaming LLM Safety

May 29, 2024

DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints
Andrew Zhao, Quentin Xu, Matthieu Lin, Shenzhi Wang, Yong-jin Liu, Zilong Zheng, Gao Huang
Red Teaming Attack Success Rate DIVeR Identification Semantic Diversity Constraint Relaxation Semantic Reward

May 28, 2024

Learning diverse attacks on large language models for robust red-teaming and safety tuning
Seanie Lee, Minsu Kim, Lynn Cherif, David Dobre, Juho Lee, Sung Ju Hwang, Kenji Kawaguchi, Gauthier Gidel, Yoshua Bengio, Nikolay Malkin, Moksh Jain
Large Language Model Language Model Red Teaming Prompt Attack Safety Fine Tuning

May 24, 2024

ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users
Guanlin Li, Kangjie Chen, Shudong Zhang, Jie Zhang, Tianwei Zhang
Adversarial Attack Generative Model Text to Image Model Art Specific Information Red Teaming Pre Trained Generative Model Benign Input

May 22, 2024

Safety Alignment for Vision Language Models
Zhendong Liu, Yuanbi Nie, Yingshui Tan, Xiangyu Yue, Qiushi Cui, Chongjun Wang, Xiaoyong Zhu, Bo Zheng
Vision Language Model Pre Trained Red Teaming Safety Alignment

May 21, 2024

Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming
Jiaxu Liu, Xiangyu Yin, Sihao Wu, Jianhong Wang, Meng Fang, Xinping Yi, Xiaowei Huang
Tiny Refinement Elicit Resilience Red Teaming Sentinel 1 Prefix to Prefix Target Model

May 16, 2024

Red Teaming Language Models for Processing Contradictory Dialogues
Xiaofei Wen, Bangzheng Li, Tenghao Huang, Muhao Chen
Conversational AI Red Teaming Contradictory Content Dialogue Comprehension

April 10, 2024

CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge
Yu Ying Chiu, Liwei Jiang, Maria Antoniak, Chan Young Park, Shuyue Stella Li, Mehar Bhatia, Sahithya Ravi, Yulia Tsvetkov, Vered Shwartz, Yejin Choi
Large Language Model Red Teaming LLM Benchmark Lack Thereof

April 6, 2024

ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming
Simone Tedeschi, Felix Friedrich, Patrick Schramowski, Kristian Kersting, Roberto Navigli, Huu Nguyen, Bo Li
Language Model Human SAFETY Comprehensive Benchmark Red Teaming Adversarial Testing Alert System Adversarial Misuse

April 2, 2024

Red-Teaming Segment Anything Model
Krzysztof Jankowski, Bartlomiej Sobieski, Mateusz Kwiatkowski, Jakub Szulc, Michal Janik, Hubert Baniecki, Przemyslaw Biecek
Adversarial Attack Segment Anything Model Segmentation Task Segmentation Mask Red Teaming

Red Teaming

Papers

AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases

ASTPrompter: Weakly Supervised Automated Language Model Red-Teaming to Identify Likely Toxic Prompts

The Human Factor in AI Red Teaming: Perspectives from Social and Collaborative Computing

Automated Progressive Red Teaming

WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

Leveraging Reinforcement Learning in Red Teaming for Advanced Ransomware Attack Simulations

STAR: SocioTechnical Approach to Red Teaming Language Models

"Not Aligned" is Not "Malicious": Being Careful about Hallucinations of Large Language Models' Jailbreak

Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming

Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding

garak: A Framework for Security Probing Large Language Models

DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints

Learning diverse attacks on large language models for robust red-teaming and safety tuning

ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users

Safety Alignment for Vision Language Models

Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming

Red Teaming Language Models for Processing Contradictory Dialogues

CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge

ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming

Red-Teaming Segment Anything Model