Hierarchical Token Semantic Audio Transformer