设计Shaped Reward提高Agent效果

概要

为了提高agent在复杂环境中的效果，设计一个合适的reward function是非常重要的。经典的reward function可能只在某些关键事件上给予reward，而忽略了agent在达到这些关键事件过程中的微小进展。因此，通过设计一个有坡度的reward（Shaped reward）来给予agent在做出正确动作时的微小奖励（mini reward）是很有意义的。

关于Shaped Reward的探讨

奖励正确的动作：当agent采取有助于其达成目标的动作时，通过Shaped reward我们可以即时地给予其一定的奖励，即使这一动作并没有直接导致最终的成功。
避免陷阱：尽管精心设计的reward function看起来可以指导agent更快地学习，但是它也可能导致一些不预期的后果。Agent可能会找到一些巧妙的方法来最大化其reward，即使这些方法在实际应用中没有实际意义。因此，设计reward function时需要小心，确保agent不会采取一些"作弊"的策略来获得更高的reward。