Cross-Lingual Query-by-Example Spoken Term Detection: A Transformer-Based Approach [2410.04091]