Mastering the game of Go without human knowledge

2019年7月6日 145次阅读来源: 马小李23

在没有人类知识的情况下掌握围棋游戏
摘要：
人工智能的一个长久以来的目标就是得到一个算法，这个算法能在具有挑战的领域，从白板状态，习得超出常人的熟练程度。最近，AlphaGo成为第一个在围棋游戏中战胜世界冠军的程序。在AlphaGo中的树搜索使用深度神经网络来评估位置以及选定的走子（走一步棋）。这些神经网络通过人类专家的走子进行监督学习，并且通过自我对弈的方式强化学习。这里我们介绍一种仅依赖于强化学习，不需要除了游戏规则之外的人类数据，指导以及领域知识的程序。AlphaGo成为它自己的老师：一个神经网络被训练用来预测AlphaGo自己的走子选择，也预测AlphaGo的游戏的胜利者。这个神经网络提升了树搜索的能力，使得其在下一次迭代中，获得了更高质量的走子选择和更强的自我对弈。从一个白板开始，我们的新程序AlphaGo Zero获得了超出常人的表现，并以100-0战胜了之前发布的，战胜世界冠军的AlphaGo

全文地址

    原文作者：马小李23
    原文地址: https://www.jianshu.com/p/b3b5b00f80ab
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。