Adversarial Fine Tuning

Adversarial fine-tuning enhances the robustness of pre-trained models, like CLIP and various LLMs, against adversarial attacks—malicious inputs designed to mislead the model. Current research focuses on developing techniques to improve model resilience across diverse downstream tasks (e.g., image classification, semantic segmentation, and natural language processing) while maintaining or even improving performance on clean data, often employing methods like Siamese networks, multi-agent systems, and prompt engineering. This work is crucial for ensuring the reliability and security of AI systems in various applications, from medical diagnosis to autonomous vehicles, where vulnerability to adversarial attacks could have significant consequences.

Papers

August 26, 2023

Adversarial Fine-Tuning of Language Models: An Iterative Optimisation Approach for the Generation and Detection of Problematic Content
Charles O'Neill, Jack Miller, Ioana Ciuca, Yuan-Sen Ting, Thang Bui
Language Model Data Detection Harmful Content Iterative Optimization Adversarial Fine Tuning Cycle Consistent Adversarial Network Adversarial Model

November 17, 2022

Assessing Neural Network Robustness via Adversarial Pivotal Tuning
Peter Ebert Christensen, Vésteinn Snæbjarnarson, Andrea Dittadi, Serge Belongie, Sagie Benaim
Image Classifier Neural Network Robustness Adversarial Fine Tuning Semantic Image Editing

November 1, 2022

Fine-tuned Generative Adversarial Network-based Model for Medical Image Super-Resolution
Alireza Aghelan, Modjtaba Rouhani
Generative Adversarial Network Medical Image High Resolution Adversarial Fine Tuning Super Resolution Generative Adversarial Network Deep Learning Based Super Resolution Medical Image Super Resolution

April 28, 2022

Adversarial Fine-tune with Dynamically Regulated Adversary
Pengyue Hou, Ming Zhou, Jie Han, Petr Musilek, Xingyu Li
Adversarial Attack Adversarial Training Adversarial Robustness Adversarial Fine Tuning Monotone Adversary Adversarial Training Algorithm

April 8, 2022

Defense against Adversarial Attacks on Hybrid Speech Recognition using Joint Adversarial Fine-tuning with Denoiser
Sonal Joshi, Saurabh Kataria, Yiwen Shao, Piotr Zelasko, Jesus Villalba, Sanjeev Khudanpur, Najim Dehak
Adversarial Attack Hybrid Automatic Speech Recognition Image Denoiser Adversarial Fine Tuning White Box Adversarial Attack

March 31, 2022

Adversarial Speaker Distillation for Countermeasure Model on Automatic Speaker Verification
Yen-Lun Liao, Xuanjun Chen, Chung-Che Wang, Jyh-Shing Roger Jang
Knowledge Distillation Adversarial Fine Tuning Adversarial Distillation Adaptive Electronic Counter Counter Measure

December 22, 2021

How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial Robustness?
Xinhsuai Dong, Luu Anh Tuan, Min Lin, Shuicheng Yan, Hanwang Zhang
Adversarial Example Pre Trained Language Model Adversarial Training Adversarial Robustness Adversarial Fine Tuning

Adversarial Fine Tuning

Papers

Adversarial Fine-Tuning of Language Models: An Iterative Optimisation Approach for the Generation and Detection of Problematic Content

Assessing Neural Network Robustness via Adversarial Pivotal Tuning

Fine-tuned Generative Adversarial Network-based Model for Medical Image Super-Resolution

Adversarial Fine-tune with Dynamically Regulated Adversary

Defense against Adversarial Attacks on Hybrid Speech Recognition using Joint Adversarial Fine-tuning with Denoiser

Adversarial Speaker Distillation for Countermeasure Model on Automatic Speaker Verification

How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial Robustness?