近期阅读了这篇文章 What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study ,本文探索了PPO policy loss, 网络结构, 初始化和转换策略等方面的具体内容。
在Reinforcement Learning中,reward function的设计至关重要。最近大概总结了一些reward function的设计原则。
ML-Agents中使用Python API时出现The behavior needs a discrete input of dimension (xx, xx) for (<number of agents>, <action size>) but received input of dimension (xx, xx)错误
莫凡老师曾用Tensorflow1.x实现用PPO解决Pendulum-v0问题,将其用Tensorflow2.8实现了出来。
WanShusen老师的Reinforcement Learning基础知识分享与我我自己做的学习笔记分享与记录。