概要
为了提高agent在复杂环境中的效果,设计一个合适的reward function是非常重要的。经典的reward function可能只在某些关键事件上给予reward,而忽略了agent在达到这些关键事件过程中的微小进展。因此,通过设计一个有坡度的reward(Shaped reward)来给予agent在做出正确动作时的微小奖励(mini reward)是很有意义的。
关于Shaped Reward的探讨
-
奖励正确的动作:当agent采取有助于其达成目标的动作时,通过Shaped reward我们可以即时地给予其一定的奖励,即使这一动作并没有直接导致最终的成功。
-
避免陷阱:尽管精心设计的reward function看起来可以指导agent更快地学习,但是它也可能导致一些不预期的后果。Agent可能会找到一些巧妙的方法来最大化其reward,即使这些方法在实际应用中没有实际意义。因此,设计reward function时需要小心,确保agent不会采取一些"作弊"的策略来获得更高的reward。