deeprm_reforement_learning

本项目基于hongzimao/deeprm，原作者还著有论文Resource Management with Deep Reinforcement Learning 。
原作者使用的神经网络框架是 Theano。但是Yoshua Bengio 在2017年9月28日通过公开信的形式宣布 Theano 停止更新维护。所以我准备将Theano替换为目前更为流行的 Tensorflow 框架进行二次开发。
除去更换框架之外，我希望对深度强化学习算法进行多种尝试。包括但不限于policy_grandient、A2C、A3C、DDPG、PPO等，每种算法以不同的文件夹名区分。
强化学习参考MorvanZhou/Reinforcement-learning-with-tensorflow，莫烦的视频通俗易懂，强推。