Counterfactual Representation

Counterfactual representation research focuses on generating alternative versions of data—like text or images—that differ minimally from the original but change a model's prediction or behavior. Current work explores methods for creating these counterfactuals by manipulating model representations directly, often leveraging techniques from causal inference and generative models like transformers and GANs, to understand model decision-making and mitigate biases. This approach has implications for improving model explainability, enhancing fairness in machine learning, and developing more robust and privacy-preserving systems. The ability to generate meaningful counterfactuals is proving valuable across various applications, including bias mitigation in classification and defending against membership inference attacks.

Papers

December 5, 2024

Graph Disentangle Causal Model: Enhancing Causal Inference in Networked Observational Data
Binbin Hu, Zhicheng An, Zhengwei Wu, Ke Tu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou, Yufei Feng, Jiawei Chen
Causal Inference Network Programming Observational Data Latent Confounders Text Based Confounders Disentangled Causal Counterfactual Representation

June 4, 2024

Probing the Category of Verbal Aspect in Transformer Language Models
Anisia Katinskaia, Roman Yangarber
Language Model Transformer Language Model Contextual Representation Category Shift Verbal Communication Counterfactual Representation

February 17, 2024

Intervention Lens: from Representation Surgery to String Counterfactuals
Matan Avitan, Ryan Cotterell, Yoav Goldberg, Shauli Ravfogel
Language Model Representation Space Counterfactual Method Counterfactual Task Counterfactual Representation

February 1, 2024

Explaining Text Classifiers with Counterfactual Representations
Pirmin Lemberger, Antoine Saillenfest
Causal Inference Bias Mitigation High Quality Counterfactuals Counterfactual Representation Counterfactual Classification

November 2, 2023

MIST: Defending Against Membership Inference Attacks Through Membership-Invariant Subspace Training
Jiacheng Li, Ninghui Li, Bruno Ribeiro
Membership Inference Attack Membership Inference Counterfactual Representation

May 24, 2023

Counterfactual Co-occurring Learning for Bias Mitigation in Weakly-supervised Object Localization
Feifei Shao, Yawei Luo, Lei Chen, Ping Liu, Wei Yang, Yi Yang, Jun Xiao
Bias Mitigation Weakly Supervised Object Localization Counterfactual Learning Counterfactual Representation

March 28, 2022

Cycle-Consistent Counterfactuals by Latent Transformations
Saeed Khorram, Li Fuxin
Generative Network Consistent Counterfactuals Counterfactual Representation