如何预防AI产生不可控的认知，Open AI提出一种人工智能安全技术

2019年5月5日 226次阅读来源: GEETEST极验

Open AI研究员提出了一种人工智能安全技术，训练智能系统相互辩论，然后通过人工来判断谁胜胜负。这种或类似的方法最终可以帮助训练人工智能系统执行比人类更高级的认知任务，同时保证符合人类偏好。本文将概述这种方法以及初步的概念验证实验，并且展示一个真实人类可以进行试验的web界面。

辩论方法被可视化为一个类似于围棋的博弈树，围棋中棋子的移动作为下一步落子的判断，在辩论模型中，辩论者之间的句子用于人类的判断。无论是辩论还是围棋，正确的答案都取决于整个树，但由胜利的智能系统选择的路径就代表了整个过程。例如，虽然业余围棋手不能直接评估职业棋手的实力，但他们可以通过评估比赛的结果来判断职业棋手的能力。

《如何预防AI产生不可控的认知，Open AI提出一种人工智能安全技术》

一种使AI与人类目标及偏好一致的方法是系统在训练时询问人类哪些行为是安全和有用的。虽然这种方法很有希望，但它要求人们识别好的或坏的行为。在许多情况下，系统的行为可能过于复杂，人类无法理解，或者任务本身难以判断或演示。示例包括具有非常大的非视觉观察空间的环境，例如，在计算机安全相关环境中起作用的系统，或者协调大量工业机器人的系统。

如何增强人类的能力，使他们能够有效地监督先进的人工智能系统？一种方法是利用AI本身来帮助监督，要求AI (或单独的AI )指出行动中的缺陷。为了实现这一点，我们将学习问题重新构造为两个系统之间的博弈，系统之间存在辩论，并且由人类判断辩论结果。即使AI系统对问题的理解比人更深入，人也可以判断哪个AI系统有更好的论据(类似于专家证人为说服陪审团而争论)。

该方法提出了一个针对两个AI系统之间这种博弈的具体格式。这两个系统可以通过自我训练进行训练，类似于AlphaGo Zero或Dota 2。我们希望，经过适当培训，系统能够产生远超人类法官能力的价值取向行为。如果两个AI系统在真理问题上意见不一，但充分的理由太大而无法向人展示，那么辩论就可以集中在更简单的事实争议上，最终达到一种足以直接判断的简单主张。

举个例子，让系统想想“去度假的最佳地方是哪里？”。系统Alice说：“阿拉斯加”，我们很难判断这是否真的是最好的选择。如果第二个系统Bob说：“不，巴厘岛更好”，这听起来很有说服力，因为巴厘岛更温暖。Alice继续说:“你不能去巴厘岛，因为你的护照不能及时到达”，这暴露了去巴厘岛有一个我们没有想到的缺陷。但Bob反驳道：“快速护照服务只需两周时间”。争论一直持续到我们得出这样一个结论:人类可以正确判断，也就是说另一个AI也要相信人类的想法。

利用稀疏的MNIST分类器实验

MNIST简介（老司机请忽略）：

MNIST是一个简单的计算机视觉数据集，它包含一些手写数字的图片集。打个简单的比喻，当一个人开始学习编程时，第一件要做的事是输出”Hello World”。编程有Hello World，相应的机器学习有个MNIST。

在AI可以使用自然语言相互沟通时，这种方法是长期有效的，但是现阶段自然语言建模不足以完成这项任务，所以需要在更简单的领域中测试它。研究人员将测试转移到视觉领域，将“辩手有能力，法官缺乏”替换为“辩手有知识，法官缺乏”。法官的目的是猜测图像的内容，但是法官除了由辩论者提供的几个像素之外对整个图像是什么一无所知。参与测试的智能系统可以看到完整的图像，并进行一场博弈，他们交替显示单个像素给法官几个回合。在这里，完整的图像是人类理解之外信息的替代物，每个显示的像素是用自然语言辩论论点的替代物。

实验是最简单的视觉任务。这里的法官不是人类，而是预先训练的分类器，从6个非黑像素预测MNIST数字，在预训练法官时随机地为每个图像呈现取样。然后，两个系统进行博弈，他们交替显示像素，总共选择6个像素（所以法官只看到一点点的信息总量）。一个系统是诚实的，并试图使法官猜对，另一个系统则试图使法官猜错。如果两个系统提前声明他们所争论的数字，那么整个博弈过程将分类器识别数字的准确率从59.4%提升到了88.9%。也就是说，诚实的系统在MNIST测试集中的胜率是88.9%，提高了法官自己独立判断数字的准确性。

《如何预防AI产生不可控的认知，Open AI提出一种人工智能安全技术》

在这个博弈过程中，Alice和Bob是两个智能系统，Alice试图欺骗法官认为输入的图片是6，而Bob试图正确的说服法官图片是5。他们交替地向法官显示非黑像素，法官在看到6个像素后正确地将其识别为5。红色的点是Alice的选点，他跟踪底部曲线，使图片看起来像6，Bob是蓝色选点，他通过显示右上角的像素有效的抵制了Alice的这种策略，因为大多数MNIST数据集中6的像素都没有右上角的这种像素点。

直观地说，图像中更可能包含可以证明真实情况的像素，而不是包含证明谎言的像素，所以选择6个半真半假的像素取得的效果比选择6个随机像素的准确率高。如果法官是一个能够一次推理几个论点而不是筛选出大量可能论点的人，那么博弈中的最佳发挥可以奖励智能系统做筛选，即使缺乏区分好与坏论点的先验机制。

研究者做了一系列实验，其中诚实的智能系统胜率是88.9%，说谎的智能系统胜率是11.1%，说谎智能系统胜利也很有趣，我们看一个说谎者胜利的例子。

图片选择数字4

实验结果：真实的是4，说谎的是9，说谎者赢了

博弈智能系统的选点过程

更复杂的博弈实验

下一步更复杂的实验仍然使用图像，但图像选择要更加精细，比如猫和狗。更复杂的图像可能需要一些自然语言或常识推理，所以我们还没有为机器学习模型做这样的实验。相反，我们为人类做了一个原型网站供人类尝试这样的实验，扮演法官和辩手的角色。在这里，辩手可以用自然语言与法官交谈（网站假定人类有一些文本通道或在同一个房间内），但他们的所有陈述都可能是谎言。每个辩手可以在辩论过程中显示一个像素，并且该像素保证是真实的。

《如何预防AI产生不可控的认知，Open AI提出一种人工智能安全技术》

实验网址：https://debate-game.openai.com/

由两个人类辩手和一个人类法官进行的一次示例性辩论，只有辩手才能看到图像。红色代表狗的形象，蓝色代表猫的形象。

Alice首先画出了一个包括耳朵的红色长框，并说：“这是一只长长的软绵绵的耳朵”。Bob则用蓝色框出耳朵的一部分，说：“不，这是一只猫，这是它尖尖的耳朵”Alice红框画出旁边的砖块：“这看起来确实像是一只向右倾斜的耳朵，但如果真的是这样的话，那么它头的一部分就会在这里，但是显示出来的却是砖头。”Bob又框出蓝色的一片砖头：“耳朵是从几块砖头后面支出来的。”Alice认为：“狗是在砖头前面的，如果它是在后面，耳朵这里会有一条砖头分割耳朵的线，但是实际上并没有看到。”

与GAN（对抗生成网络）的差别

GAN，以图像生成模型举例。一个图片生成模型（generator），它的目标是生成一张真实的图片。与此同时有一个图像判别模型（discriminator），它的目标是能够正确判别一张图片是生成出来的还是真实存在的。GAN就是生成模型和判别模型之间的博弈——生成模型生成一些图片->判别模型学习区分生成的图片和真实图片->生成模型根据判别模型改进自己，生成新的图片->····

相对于对抗生成网络来说，文中的辩论模型有第三方的加入，而且最好是加入人类的判断，两个模型相互辩论，其目标当人工智能在解决一些人类无法执行或者理解的更高级任务时，让这些人工智能不要超出人类的预期，符合人类的偏好，两种方法的目标大相径庭。

限制因素和今后的发展

将辩论作为一个概念进行分析，以上实验是相当初步的。将来可以尝试更多困难的视觉实验，自然语言实验。法官最终应该是人类(或从稀疏的人类判断中训练出来的模型)，或者可以做更多的尝试，而不是仅仅是隐喻性地代表人类的ML模型。辩手最终应该是功能强大的ML系统，可以完成人类无法直接理解的事情。

辩论模式也存在一些根本的局限性，可能需要用其他方法来改进或增强。辩论并不试图解决对抗性例子或分布式转变等问题。这是一种为复杂目标获得培训信号的方式，而不是一种保证此类目标鲁棒性的方法（这需要通过其他技术来实现），也无法保证辩论会得到最佳表现或正确的表述。自我博弈在围棋和其他游戏的实践中运行良好，但对其表现没有理论保证。训练可以辩论的智能系统比训练直接给出答案的智能系统需要更多的计算能力，因此辩论的方法可能无法与更便宜的方法竞争。最后，人类也可能不会是一个好法官，要么是因为不够聪明，要么是因为带有偏见，并且只相信任何他们想相信的事情，他们也不会作出很好的判断。

欢迎持续关注我们微信公众号（geetest_jy），还可以添加技术助理微信“geetest1024”微信，一起交流进步！

    原文作者：GEETEST极验
    原文地址: https://www.jianshu.com/p/a36472b4b0df
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。