新鲜出炉的DRL劝退文

2019年7月14日 198次阅读来源: Ming

就在昨天UC Berkeley的Horia Mania, Aurelia Guy和Benjamin Recht在arxiv上公布论文Simple random search provides a competitive approach to reinforcement learning：[1803.07055] Simple random search provides a competitive approach to reinforcement learning。

经过在各种openai gym的locomotion tasks上做实验，他们得出结论: random search+linear policy足以吊打各种fancy algorithm + neural network。

《新鲜出炉的DRL劝退文》

上图中ARS表示augmented random search，可以看到ARS吊打了所有算法。

最后他们得出四个结论（我的大略翻译）：

1 在发明复杂的算法前，应该先用最简单的方法来把baseline做好。

2 做evaluation要用大量的random seed。在用到仿真器的时候，很难证明一种算法比另一种算法更好，因为某个算法可能不小心用到了仿真器的某种性质，而到了另一个问题／仿真器这个性质可能就不存在了。

3 与其设计一个通用的算法，也许我们更应该设计针对某一问题的算法。

4 我们应该转移注意到model-based的方法，因为这类方法更加sample efficient。

不说了，我要去写退学申请了。

    原文作者：Ming
    原文地址: https://zhuanlan.zhihu.com/p/34772633
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。