Proximal Policy Optimization with Adaptive Exploration [2405.04664]