Knowledge Distillation of Transformer-based Language Models Revisited [2206.14366]