Near-optimal Deep Reinforcement Learning Policies from Data for Zone Temperature Control [2203.05434]