Multiscale Matching Driven by Cross-Modal Similarity Consistency for Audio-Text Retrieval [2403.10146]