Masked Modeling Duo: Towards a Universal Audio Pre-training Framework [2404.06095]