A Comparative Analysis on Ethical Benchmarking in Large Language Models [2410.19753]