新鲜出炉的DRL劝退文

就在昨天UC Berkeley的Horia Mania, Aurelia Guy和Benjamin Recht在arxiv上公布论文Simple random search provides a competitive approach to reinforcement learning:[1803.07055] Simple random search provides a competitive approach to reinforcement learning

经过在各种openai gym的locomotion tasks上做实验,他们得出结论: random search+linear policy足以吊打各种fancy algorithm + neural network。

《新鲜出炉的DRL劝退文》
《新鲜出炉的DRL劝退文》

上图中ARS表示augmented random search,可以看到ARS吊打了所有算法。

最后他们得出四个结论(我的大略翻译):

1 在发明复杂的算法前,应该先用最简单的方法来把baseline做好。

2 做evaluation要用大量的random seed。在用到仿真器的时候,很难证明一种算法比另一种算法更好,因为某个算法可能不小心用到了仿真器的某种性质,而到了另一个问题/仿真器这个性质可能就不存在了。

3 与其设计一个通用的算法,也许我们更应该设计针对某一问题的算法。

4 我们应该转移注意到model-based的方法,因为这类方法更加sample efficient。

不说了,我要去写退学申请了。

    原文作者:Ming
    原文地址: https://zhuanlan.zhihu.com/p/34772633
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞