Robust Explanation

Robust explanation in machine learning aims to create explanations for model predictions that are reliable and consistent, even when faced with adversarial attacks or changes in input data. Current research focuses on improving the robustness of various explanation methods, including counterfactual explanations, saliency maps, and prototype-based approaches, often applied to deep neural networks and ensemble methods like random forests. This work is crucial for building trust in AI systems, particularly in high-stakes applications where understanding and verifying model decisions is paramount, and for mitigating the risks associated with unreliable or easily manipulated explanations.

Papers

December 16, 2022

Robust Explanation Constraints for Neural Networks
Matthew Wicker, Juyeon Heo, Luca Costabello, Adrian Weller
Neural Network Gradient Based Explanation Method Post Hoc Explanation Robust Explanation Gradient Based Explanation

December 12, 2022

Evaluation and Improvement of Interpretability for Self-Explainable Part-Prototype Networks
Qihan Huang, Mengqi Xue, Wenqi Huang, Haofei Zhang, Jie Song, Yongcheng Jing, Mingli Song
Global Evaluation Inherent Interpretability Large Relevance Improvement Robust Explanation Part Prototype Network Prototype Network

December 2, 2022

VeriX: Towards Verified Explainability of Deep Neural Networks
Min Wu, Haoze Wu, Clark Barrett
Deep Neural Network Line by Line Explanation High Quality Counterfactuals Better Explainability Robust Explanation

November 9, 2022

On the Robustness of Explanations of Deep Neural Network Models: A Survey
Amlan Jyoti, Karthik Balaji Ganesh, Manoj Gayala, Nandita Lakshmi Tunuguntla, Sandesh Kamath, Vineeth N Balasubramanian
Deep Neural Network Timely Survey Native Robustness Line by Line Explanation High Explainability Explainability Method Robust Explanation Attribution Attack

September 18, 2022

EMaP: Explainable AI with Manifold-based Perturbations
Minh N. Vu, Huy Q. Mai, My T. Thai
Explainable AI Persistent Homology Robust Explanation Hausdorff Distance

June 24, 2022

Analyzing Explainer Robustness via Probabilistic Lipschitzness of Prediction Functions
Zulqarnain Khan, Davin Hill, Aria Masoomi, Joshua Bone, Jennifer Dy
Native Robustness Inherent Interpretability Robust Explanation Local Prediction Prediction Function

June 7, 2022

Fooling Explanations in Text Classifiers
Adam Ivankay, Ivan Girardi, Chiara Marchiori, Pascal Frossard
Attribution Method Text Classifier Attribution Map Robust Explanation Attribution Robustness Explanation Guided Explanation Hacking

February 14, 2022

Measurably Stronger Explanation Reliability via Model Canonization
Franz Motzkus, Leander Weber, Sebastian Lapuschkin
Robust Explanation Attribution Based Graph Canonization