Feature Attribution

Feature attribution aims to explain the predictions of complex machine learning models by identifying which input features most significantly influence the output. Current research focuses on developing and evaluating various attribution methods, including gradient-based approaches like Integrated Gradients and game-theoretic methods like SHAP, often applied to deep neural networks (including transformers) and other architectures like Siamese encoders. These efforts address challenges such as faithfulness (accuracy of attributions), robustness (consistency under perturbations), and computational efficiency, ultimately seeking to improve model transparency and trustworthiness for applications ranging from medical diagnosis to scientific discovery.

Papers

April 11, 2022

Doctor XAvIer: Explainable Diagnosis on Physician-Patient Dialogues and XAI Evaluation
Hillary Ngai, Frank Rudzicz
Entity Recognition Feature Attribution Feature Attribution Method Doctor Patient XAI Evaluation Symptom Based

March 4, 2022

Do Explanations Explain? Model Knows Best
Ashkan Khakzar, Pedram Khorsandi, Rozhin Nobahari, Nassir Navab
Full Model Line by Line Explanation Neural Network Model Feature Attribution Explanation Method Explanation Type

February 2, 2022

December 23, 2021

More Than Words: Towards Better Quality Interpretations of Text Classifiers
Muhammad Bilal Zafar, Philipp Schmidt, Michele Donini, Cédric Archambeau, Felix Biessmann, Sanjiv Ranjan Das, Krishnaram Kenthapadi
Word List Token Level Feature Attribution Text Classifier Semantic Interpretation Interpretation Quality

December 16, 2021

Exact Shapley Values for Local and Model-True Explanations of Decision Tree Ensembles
Thomas W. Campbell, Heinrich Roder, Robert W. Georgantas, Joanna Roder
Decision Tree Shapley Value Feature Attribution Additive Feature Attribution

November 16, 2021

Selective Ensembles for Consistent Predictions
Emily Black, Klas Leino, Matt Fredrikson
Feature Attribution Unreliable Prediction Consistent Prediction Test Data Selective Ensemble

November 14, 2021

Feature Attribution

Papers

Doctor XAvIer: Explainable Diagnosis on Physician-Patient Dialogues and XAI Evaluation

Do Explanations Explain? Model Knows Best

Analogies and Feature Attributions for Model Agnostic Explanation of Similarity Learners

Identifying Suitable Tasks for Inductive Transfer Through the Analysis of Feature Attributions

More Than Words: Towards Better Quality Interpretations of Text Classifiers

Exact Shapley Values for Local and Model-True Explanations of Decision Tree Ensembles

Selective Ensembles for Consistent Predictions

A Robust Unsupervised Ensemble of Feature-Based Explanations using Restricted Boltzmann Machines

"Will You Find These Shortcuts?" A Protocol for Evaluating the Faithfulness of Input Salience Methods for Text Classification