Diagnostic Tool for Out-of-Sample Model Evaluation [2206.10982]