Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention [2308.05872]