TracrBench: Generating Interpretability Testbeds with Large Language Models [2409.13714]