Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

用一个泛化的强化学习算法掌握国际象棋和日本象棋

摘要:

国际象棋游戏在人工智能的历史中是最广泛研究的领域。最强的程序都基于复杂的搜索技术,特定领域的自适应和人类专家十几年来完善的手工评估函数的结合。相反,AlphaGo Zero程序最近通过从自我对弈的白板状态的强化学习中,获得了在围棋游戏中超出常人的表现。在本文中,我们将这个方法推广到一个AlphaZero算法,它能够在很多有挑战的领域,从白纸状态,获得超出常人的表现。AlphaZero从随机对弈开始,不给定除游戏规则之外的领域知识,如同在围棋中一样,它在24小时内在国际象棋和日本象棋中达到了超出常人的水平,并在每个游戏中,令人信服地击败了一个世界冠军的程序。

全文地址:
https://arxiv.org/abs/1712.01815

    原文作者:马小李23
    原文地址: https://www.jianshu.com/p/a27abbdefaf6#comments
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞