Feature Attribution

Feature attribution aims to explain the predictions of complex machine learning models by identifying which input features most significantly influence the output. Current research focuses on developing and evaluating various attribution methods, including gradient-based approaches like Integrated Gradients and game-theoretic methods like SHAP, often applied to deep neural networks (including transformers) and other architectures like Siamese encoders. These efforts address challenges such as faithfulness (accuracy of attributions), robustness (consistency under perturbations), and computational efficiency, ultimately seeking to improve model transparency and trustworthiness for applications ranging from medical diagnosis to scientific discovery.

Papers

June 7, 2024

Provably Better Explanations with Optimized Aggregation of Feature Attributions
Thomas Decker, Ananta R. Bhattarai, Jindong Gu, Volker Tresp, Florian Buettner
Feature Attribution Post Hoc Explanation Feature Attribution Method Plausible Explanation Better Explainability Opaque Machine Learning Mean Aggregation

May 29, 2024

Selective Explanations
Lucas Monteiro Paes, Dennis Wei, Flavio P. Calmon
Feature Attribution Hard to Easy Inconsistency Selective Explanation Amortized Model

May 23, 2024

Explaining Black-box Model Predictions via Two-level Nested Feature Attributions with Consistency Property
Yuya Yoshikawa, Masanari Kimura, Ryotaro Shimizu, Yuki Saito
Strong Consistency Black Box Model Feature Attribution Model Prediction Local Interpretable Model Agnostic Explanation

May 22, 2024

Attention Mechanisms Don't Learn Additive Models: Rethinking Feature Importance for Transformers
Tobias Leemann, Alina Fastowski, Felix Pfeiffer, Gjergji Kasneci
Transformer Megatron Decepticons Explainable AI Attention Mechanism Feature Importance Feature Attribution Feature Attribution Method Additive Model Surrogate Explainers

May 20, 2024

From SHAP Scores to Feature Importance Scores
Olivier Letoffe, Xuanxiang Huang, Nicholas Asher, Joao Marques-Silva
Feature Importance Feature Attribution SHAP Score

May 16, 2024

Manifold Integrated Gradients: Riemannian Geometry for Feature Attribution
Eslam Zaher, Maciej Trzaskowski, Quan Nguyen, Fred Roosta
Feature Attribution Feature Attribution Method Riemannian Geometry Integrated Gradient Path Modeling Attribution Attack

May 3, 2024

RankSHAP: Shapley Value Based Feature Attributions for Learning to Rank
Tanya Chowdhury, Yair Zick, James Allan
Shapley Value Feature Attribution Feature Attribution Method Ranking Task Attribution Robustness SHAP Value

May 2, 2024

Explaining models relating objects and privacy
Alessio Xompero, Myriam Bontonou, Jean-Michel Arbona, Emmanouil Benetos, Andrea Cavallaro
Full Model Arbitrary Object Feature Attribution Private Text User Privacy Privacy Model Privacy Decision Private Image

April 30, 2024

Towards trustable SHAP scores
Olivier Letoffe, Xuanxiang Huang, Joao Marques-Silva
Feature Attribution Characteristic Function SHAP Score

April 17, 2024

Toward Understanding the Disagreement Problem in Neural Network Feature Attribution
Niklas Koenen, Marvin N. Wright
Black Box Model Feature Attribution Feature Attribution Method Explanation Quality Effect Size Disagreement Problem Rank Based

April 12, 2024

PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis
Dipkamal Bhusal, Md Tanvirul Alam, Monish K. Veerabhadran, Michael Clifford, Sara Rampazzi, Nidhi Rastogi
Adversarial Attack Human Prediction Adversarial Sample Feature Attribution Adversarial Detection Adversarial Attack Detection Predicate Argument Structure

March 15, 2024

Gradient based Feature Attribution in Explainable AI: A Technical Review
Yongjie Wang, Tong Zhang, Xu Guo, Zhiqi Shen
Explainable AI High Explainability Natural Gradient Technical Report Artificial Intelligence Research Feature Attribution XAI Research

March 11, 2024

Explainable Learning with Gaussian Processes
Kurt Butler, Guanchao Feng, Petar M. Djuric
Gaussian Process Gaussian Process Regression Feature Attribution Attribution Method

February 18, 2024

Prospector Heads: Generalized Feature Attribution for Large Models & Data
Gautam Machiraju, Alexander Derry, Arjun Desai, Neel Guha, Amir-Hossein Karimi, James Zou, Russ Altman, Christopher Ré, Parag Mallick
Raw Data Large Model Feature Attribution Attribution Based Feature Uncertainty Detection Head

February 13, 2024

Feature Attribution with Necessity and Sufficiency via Dual-stage Perturbation Test for Causal Explanation
Xuexin Chen, Ruichu Cai, Zhengting Huang, Yuxuan Zhu, Julien Horwood, Zhifeng Hao, Zijian Li, Jose Miguel Hernandez-Lobato
High Explainability Community Need Feature Attribution Attribution Method Causal Direction Counterfactual Reasoning Feature Attribution Method

January 29, 2024

Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution
Ian Covert, Chanwoo Kim, Su-In Lee, James Zou, Tatsunori Hashimoto
Unified Framework Noisy Label Label Noise Feature Attribution Content Based Feature Explainable Machine Learning Data Attribution Amortized Model

January 28, 2024

Provably Stable Feature Rankings with SHAP and LIME
Jeremy Goldwasser, Giles Hooker
Shapley Value Feature Attribution Attribution Method Fusion SHAP Dseg Lime Feature Ranking

December 29, 2023

Towards Faithful Explanations for Text Classification with Robustness Improvement and Explanation Guided Training
Dongfang Li, Baotian Hu, Qingcai Chen, Shan He
Text Classification Feature Attribution Attribution Method Better Robustness Faithful Explanation Explanation Based

December 16, 2023

Rethinking Robustness of Model Attributions
Sandesh Kamath, Sankalp Mittal, Amit Deshpande, Vineeth N Balasubramanian
Feature Attribution Attribution Method Model Attribution Attribution Robustness Natural Robustness Research

December 12, 2023

Anytime Approximate Formal Feature Attribution
Jinqiang Yu, Graham Farr, Alexey Ignatiev, Peter J. Stuckey
Explainable AI XAI Method Feature Attribution Feature Attribution Method