Root Cause

Root cause analysis (RCA) aims to identify the underlying causes of system failures or anomalies across diverse domains, from autonomous driving to manufacturing and healthcare. Current research heavily emphasizes data-driven approaches, employing machine learning models like graph neural networks, transformers, and causal discovery algorithms (including Bayesian networks) to analyze complex datasets (often multimodal) and infer causal relationships. These advancements are improving the accuracy and efficiency of RCA, leading to faster troubleshooting, enhanced system reliability, and more informed decision-making in various industries. The development of large, publicly available datasets is also a significant focus, facilitating more robust benchmarking and algorithm comparison.

Papers

June 12, 2024

Counterfactual-based Root Cause Analysis for Dynamical Systems
Juliane Weilbach, Sebastian Gerwinn, Karim Barsim, Martin Fränzle
Causal Inference Dynamical System Root Cause Counterfactual Distribution Causal Objective Function

June 8, 2024

LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis
Lecheng Zheng, Zhengzhang Chen, Dongjie Wang, Chengyuan Deng, Reon Matsuoka, Haifeng Chen
Open Source Root Cause Fault Injection Large Scale Multimodal

June 7, 2024

Root Cause Analysis of Outliers with Missing Structural Knowledge
Nastaran Okati, Sergio Hernan Garrido Mejia, William Roy Orchard, Patrick Blöbaum, Dominik Janzing
Structural Causal Model Causal Direction Directed Acyclic Graph Root Cause Counterfactual Prediction Structural Knowledge

May 31, 2024

SLIM: a Scalable Light-weight Root Cause Analysis for Imbalanced Data in Microservice
Rui Ren, Jingbang Yang, Linxiao Yang, Xinyue Gu, Liang Sun
Imbalanced Data Root Cause Fault Classification Fault Localization Interpretable Fault

May 22, 2024

LogRCA: Log-based Root Cause Analysis for Distributed Services
Thorsten Wittkopp, Philipp Wiesner, Odej Kao
Noisy Data Root Cause Software Failure Log Anomaly Detection

April 18, 2024

mABC: multi-Agent Blockchain-Inspired Collaboration for root cause analysis in micro-services architecture
Wei Zhang, Hongcheng Guo, Jian Yang, Zhoujin Tian, Yi Zhang, Chaoran Yan, Zhoujun Li, Tongliang Li, Xu Shi, Liangfan Zheng, Bo Zhang
Root Cause Multi Agent Collaboration Microservice Architecture Simple Agent

March 31, 2024

Face It Yourselves: An LLM-Based Two-Stage Strategy to Localize Configuration Errors via Logs
Shiwen Shan, Yintong Huo, Yuxin Su, Yichen Li, Dan Li, Zibin Zheng
Root Cause Log Message System Configuration Two Stage Approach Configurable Software System Log Analysis

March 7, 2024

Exploring LLM-based Agents for Root Cause Analysis
Devjeet Roy, Xuchao Zhang, Rashi Bhave, Chetan Bansal, Pedro Las-Casas, Rodrigo Fonseca, Saravan Rajmohan
Agent Smith Root Cause Production Incident Incident Report Incident Management

February 11, 2024

KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph Convolutional Neural Networks
Tingting Wang, Guilin Qi, Tianxing Wu
Knowledge Graph Fault Detection Root Cause Graph Convolutional Neural Network Post Fault Trajectory Fault Localization SHUSS Root Exploration Term

February 9, 2024

On the Fly Detection of Root Causes from Observed Data with Application to IT Systems
Lei Zan, Charles K. Assaad, Emilie Devijver, Eric Gaussier
Application Proficiency Causal Discovery Structural Causal Model Unlabeled Anomaly Root Cause Observational Data Insect Detection

February 4, 2024

Multi-modal Causal Structure Learning and Root Cause Analysis
Lecheng Zheng, Zhengzhang Chen, Jingrui He, Haifeng Chen
Causal Graph Causal Structure Root Cause

February 2, 2024

Root Cause Analysis In Microservice Using Neural Granger Causal Discovery
Cheng-Ming Lin, Ching Chang, Wei-Yao Wang, Kuang-Da Wang, Wen-Chih Peng
Causal Discovery Root Cause Microservice Architecture Neural Granger

January 24, 2024

Automated Root Causing of Cloud Incidents using In-Context Learning with GPT-4
Xuchao Zhang, Supriyo Ghosh, Chetan Bansal, Rujia Wang, Minghua Ma, Yu Kang, Saravan Rajmohan
Context Learning GPT 4 Root Cause Incident Management Cloud Incident

January 20, 2024

Interactive and Intelligent Root Cause Analysis in Manufacturing with Causal Bayesian Networks and Knowledge Graphs
Christoph Wehner, Maximilian Kertel, Judith Wewerka
Knowledge Graph Causal Relationship Root Cause Interactive No Code Manufacturing Industry Causal Bayesian Network

January 11, 2024

Root Cause Analysis on Energy Efficiency with Transfer Entropy Flow
Jian Ma
Energy Efficiency Root Cause Transfer Entropy

December 22, 2023

Progressing from Anomaly Detection to Automated Log Labeling and Pioneering Root Cause Analysis
Thorsten Wittkopp, Alexander Acker, Odej Kao
Anomaly Detection Root Cause AIOps Model Labeling Effort

December 21, 2023

HW-V2W-Map: Hardware Vulnerability to Weakness Mapping Framework for Root Cause Analysis with GPT-assisted Mitigation Suggestion
Yu-Zheng Lin, Muntasir Mamun, Muhtasim Alam Chowdhury, Shuyu Cai, Mingyu Zhu, Banafsheh Saber Latibari, Kevin Immanuel Gubbi, Najmeh Nazari Bavarsad, Arjun Caputo, Avesta Sasan, Houman Homayoun, Setareh Rafatirad, Pratik Satam, Soheil Salehi
Faulty Negative Mitigation Root Cause Vulnerability Data Hardware Attack

December 19, 2023

Root Cause Explanation of Outliers under Noisy Mechanisms
Phuoc Nguyen, Truyen Tran, Sunil Gupta, Thin Nguyen, Svetha Venkatesh
Causal Pattern Generative Process Root Cause Anomaly Attribution

November 8, 2023

The PetShop Dataset -- Finding Causes of Performance Issues across Microservices
Michaela Hardt, William R. Orchard, Patrick Blöbaum, Shiva Kasiviswanathan, Elke Kirschbaum
Root Cause Microservice Architecture Research Community Performance Issue Dog Dataset

October 25, 2023

AI Hazard Management: A framework for the systematic management of root causes for AI risks
Ronald Schnitzer, Andreas Hapfelmeier, Sven Gaube, Sonja Zillner
New Framework Root Cause AI Risk Systematic Approach Artificial Intelligence Hazard

Root Cause

Papers

Counterfactual-based Root Cause Analysis for Dynamical Systems

LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis

Root Cause Analysis of Outliers with Missing Structural Knowledge

SLIM: a Scalable Light-weight Root Cause Analysis for Imbalanced Data in Microservice

LogRCA: Log-based Root Cause Analysis for Distributed Services

mABC: multi-Agent Blockchain-Inspired Collaboration for root cause analysis in micro-services architecture

Face It Yourselves: An LLM-Based Two-Stage Strategy to Localize Configuration Errors via Logs

Exploring LLM-based Agents for Root Cause Analysis

KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph Convolutional Neural Networks

On the Fly Detection of Root Causes from Observed Data with Application to IT Systems

Multi-modal Causal Structure Learning and Root Cause Analysis

Root Cause Analysis In Microservice Using Neural Granger Causal Discovery

Automated Root Causing of Cloud Incidents using In-Context Learning with GPT-4

Interactive and Intelligent Root Cause Analysis in Manufacturing with Causal Bayesian Networks and Knowledge Graphs

Root Cause Analysis on Energy Efficiency with Transfer Entropy Flow

Progressing from Anomaly Detection to Automated Log Labeling and Pioneering Root Cause Analysis

HW-V2W-Map: Hardware Vulnerability to Weakness Mapping Framework for Root Cause Analysis with GPT-assisted Mitigation Suggestion

Root Cause Explanation of Outliers under Noisy Mechanisms

The PetShop Dataset -- Finding Causes of Performance Issues across Microservices

AI Hazard Management: A framework for the systematic management of root causes for AI risks