Circuit Discovery

Circuit discovery in neural networks aims to identify the minimal subnetworks ("circuits") responsible for specific model behaviors, enhancing our understanding of complex models like transformers and recurrent architectures. Current research focuses on developing more robust and efficient algorithms for circuit discovery, including methods based on edge pruning, differentiable graph pruning, and sparse dictionary learning, often applied to models like GPT-2 and its variants. Improved circuit discovery techniques are crucial for advancing mechanistic interpretability, ultimately leading to more trustworthy and explainable AI systems and potentially informing the design of more efficient and interpretable models.

Papers

October 16, 2024

Hypothesis Testing the Circuit Hypothesis in LLMs
Claudia Shi, Nicolas Beltran-Velez, Achille Nazaret, Carolina Zheng, Adrià Garriga-Alonso, Andrew Jesson, Maggie Makar, David M. Blei
Large Language Model Transformer Model Hypothesis Testing Large Scale Circuit Biological Circuit Circuit Discovery

October 10, 2024

The Computational Complexity of Circuit Discovery for Inner Interpretability
Federico Adolfi, Martina G. Vilas, Todd Wareham
Computational Complexity Parameterized Complexity Circuit Discovery Circuit Representation Learning

July 19, 2024

July 11, 2024

Transformer Circuit Faithfulness Metrics are not Robust
Joseph Miller, Bilal Chughtai, William Saunders
Mechanistic Interpretability Circuit Discovery Circuit Fidelity

July 4, 2024

Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning
Lei Yu, Jingcheng Niu, Zining Zhu, Gerald Penn
Language Model Wild Challenge Sparse Subnetworks Large Scale Circuit Circuit Discovery Gradient Faithfulness

June 25, 2024

Understanding Language Model Circuits through Knowledge Editing
Huaizhi Ge, Frank Rudzicz, Zining Zhu
Language Model Knowledge Editing Large Scale Circuit Circuit Discovery

June 24, 2024

Finding Transformer Circuits with Edge Pruning
Adithya Bhaskar, Alexander Wettig, Dan Friedman, Danqi Chen
Transformer Model Edge Pruning Circuit Discovery Circuit Representation Learning

May 22, 2024

Automatically Identifying Local and Global Circuits with Linear Computation Graphs
Xuyang Ge, Fukang Zhu, Wentao Shu, Junxuan Wang, Zhengfu He, Xipeng Qiu
Mechanistic Interpretability Sparse Autoencoders Circuit Analysis Interpretability Scale Computation Graph Circuit Discovery

February 19, 2024

Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic Interpretability: A Case Study on Othello-GPT
Zhengfu He, Xuyang Ge, Qiong Tang, Tianxiang Sun, Qinyuan Cheng, Xipeng Qiu
Case Study Mechanistic Interpretability Dictionary Learning Dictionary Based Circuit Discovery Fine Grained Complexity

January 8, 2024

Evaluating Brain-Inspired Modular Training in Automated Circuit Discovery for Mechanistic Interpretability
Jatin Nainani
Inherent Interpretability Mechanistic Interpretability Circuit Discovery Good Interpretability

October 16, 2023

Attribution Patching Outperforms Automated Circuit Discovery
Aaquib Syed, Can Rager, Arthur Conmy
Interpretability Research Circuit Discovery Computational Graph

April 28, 2023

Towards Automated Circuit Discovery for Mechanistic Interpretability
Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch, Stefan Heimersheim, Adrià Garriga-Alonso
Transformer Model Mechanistic Interpretability Interpretability Research Circuit Discovery

October 12, 2022

Exploring the optimality of approximate state preparation quantum circuits with a genetic algorithm
Tom Rindell, Berat Yenilen, Niklas Halonen, Arttu Pönni, Ilkka Tittonen, Matti Raasakka
Genetic Algorithm Quantum Circuit Near Optimality Circuit Discovery State Preparation