S2-Net: Self-supervision Guided Feature Representation Learning for Cross-Modality Images [2203.14581]