《麻省理工科技评论》“2017年全球十大突破性技术”系列之：Renforcement Learning

2023年3月13日 264次阅读来源: 竹说

Job vs. Career vs. Calling

“A calling is the most satisfying form of work because, as a gratification, it is done for its own sake rather than for the material benefits it brings.

▣文· 대나무 언니

▍γνῶθι σεαυτόν.

以下是正文

昨天下午亲历了《麻省理工科技评论》（MIT Technology Review）2017年全球十大突破性技术”中国大陆地区首发现场（这是该榜单首次在中国跟美国同步首发），接下来的几天我们会选出几项跟大家做一点分享。

首先当然是：Reinforcement Learning，强化学习。

强化学习是神马？这第一条不应该颁给人工智能吗？

是的这位同学！但其实人工智能是一个统称，而Reinforcement Learning则是它的一个分支~

划分再细致一点，其中的关系如下（单从范围大小看）：

人工智能 > 机器学习 > 强化学习/深度学习/深度强化学习……

对对，好像有听说近几年人工智能是由一个叫做“深度学习”的同学推动的~

会上也有专家提出，其实这里所提到的强化学习，更应该叫做深度强化学习Deep Reinforcement Learning。

那么这一切，到底是怎么回事？

1 人工智能（Artificial Intelligence）= 为机器赋予人的智能

起源：1956年，几个计算机科学家相聚在达特茅斯会议（Dartmouth Conferences），提出了“人工智能”的概念。

发展：人工智能一直萦绕于人们的脑海之中，并在科研实验室中慢慢孵化，并且在之后的几十年一直在两极反转，或被称作人类文明耀眼未来的预言；或者被当成技术疯子的狂想扔到垃圾堆里~直到2012年之前，这两种声音还在同时存在。

以上是可以查证的、最简练的关于人工智能的起源和发展进程。实际上一直到现在，关于人工智能的看法一直是两种声音，有不少专家提醒大家要警惕人工智能的又一次寒冬。包括KK也说过人工智能的这段历史，他的看法是，现在与几十年前的过度自信相比，是有实际的大的进展的。

显然AI现在是一个超级热词，昨天发布会上也有专家说，目前“人工智能”这个词的搜索热度，在中国比其他所有国家都高，举例说，即使跟一个十八线城市的人聊天说到人工智能，说不定他也略知一二。

和人工智能同样火热的词汇还有：深度学习、机器学习等。

也有不少的朋友看到前面的一些文章时也会提问，到底什么是人工智能？

是啊！人工智能到底是什么？和机器学习还有深度学习还有这次发布会又提到的强化学习又到底是什么关系……

我的理解是：首先，“人工智能”与其他几个名字最大的不同是，它并不是一种技术，而是一个领域，它包含了从机器人到机器学习等许多学科，甚至可以更广泛——如果涉及到潜意识或者更深层次的人类智慧。

它的核心问题包括推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。大多数人同意这样的观点：人工智能的目标是开发出可以执行以往只属于人类智能范畴的任务或者认知功能。

强人工智能目前仍然是该领域的长远目标。目前比较流行的方法包括统计方法，计算智能和传统意义的AI。目前有大量的工具应用了人工智能，其中包括搜索和数学优化、逻辑推演。而基于仿生学、认知心理学，以及基于概率论和经济学的算法等等也在逐步探索当中。

人工智能 = 弱人工智能 + 强人工智能

人工智能有强弱之分：科幻影视剧中的人工智能都是“强人工智能”，而现阶段人类对人工智能的研究则集中在“弱人工智能”阶段。比如Facebook的人脸识别、Pinterest上的图像分类等。

当然他们也可以是观点之争：

弱人工智能观点认为不可能制造出能真正地推理和解决问题的智能机器，这些机器只不过看起来像是智能的，但是并不真正拥有智能，也不会有自主意识。

强人工智能观点认为有可能制造出真正能推理（Reasoning）和解决问题（解决问题）的智能机器，并且，这样的机器能将被认为是有知觉的，有自我意识的。

有没有一种强烈的西部世界既视感？

人也不过是一台有灵魂的机器而已，为什么我们认为人可以有智能，而普通机器就不能呢？

——《Consciousness Explained》丹尼尔·丹尼特

莫名想起哈姆雷特的：To be, or not to be: that is the question.

以“推理”为重点 => 以“知识”为重点 => 以“学习”为重点，这是人工智能研究的大致脉络。

2 那么机器学习又是什么？

定义：机器学习是人工智能的一个分支，是实现人工智能的一个途径，即以机器学习为手段解决人工智能中的问题。

好吧，这句话说完了跟没说差不多，放一段英文绕口令大家继续感受一下：

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

额，严肃一点说！其实它也是一个多领域的交叉学科，其理论主要是设计和分析一些——注意，划重点句子来了——让计算机可以自动“学习”的算法，它从统计中自动分析获得规律，并利用规律对未知数据进行预测，又称统计学习理论，而很多的推论问题没有程序可循，所以部分的机器学习研究是开发容易处理的近似算法。

实际上，机器学习直接来源于早期的人工智能领域，传统算法包括决策树学习、推导逻辑规划、聚类、强化学习和贝叶斯网络等等——在应用程度上，我们不仅还没有实现强人工智能，早期机器学习方法甚至都无法实现弱人工智能。

机器学习分为监督学习、无监督学习、半监督学习。

简单来说，机器学习就是用各种算法用解析数据、不断学习，做出判断和预测，人们会用大量数据和算法“训练”机器（而不是全部内置好程序），以此让机器“学会”如何执行任务。

作为一种只有三十多年历史的新技术，机器学习多年来一直是一个鸡肋的存在。

3 强化学习？深度学习？傻傻分不清楚

我们试着来做一个简单的区分和回答。

强化学习是一种通过试错法学习的范式，其灵感源自人类学习新任务的方式。典型的强化学习设定中，一个程序会在数字环境中观察自己的当前状态，并采取让自己被设定的累计长期奖励最大化的动作，它从环境中接收反馈，“知道”每次的动作是促进还是妨碍自己的进展，并找到累积奖励的优化策略和所设定目标之间的最佳策略。——元认知？！

应用：Google DeepMind玩Atari和围棋（Alphago）游戏时就采用了这个办法，并且表现惊人。

理论来源：心理学中的行为主义理论，有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

更确切地说，它来自被公认为教育心理学奠基人的心理学家爱德华·桑代克（Edward Thorndike）著名的迷箱实验：他通过观察猫如何从迷箱中逃脱，总结出三条学习定律：准备律、效果律和练习律。桑代克从实验中看到动物的学习方式，并且提出了联结主义理论：刺激（S）－反应（R）公式。

首先，大部分书与其说给我们心理学，还不如说是动物的颂歌。它们都是关于动物的智力，从没有关于动物的愚蠢。——《动物智力》爱德华·桑代克

强化学习的意义在于，能够让机器自主通过环境经验磨练技能，加快自动驾驶汽车以及其它自动化领域的进展速度。

深度学习是一种基于对数据进行表征学习的方法。比如人工神经网络（Artificial Neural Networks），这是机器学习的一个重要算法，原理是受我们大脑的生理结构——互相交叉相连的神经元启发，但和大脑中一个神经元可以连接一定距离内的任意神经元不同，人工神经网络具有离散的层、连接和数据传播的方向。深度神经网络、卷积神经网络和深度置信网络和递归神经网络等都是它旗下的学习框架~

应用：2016年3月，以深度学习开发的围棋程序AlphaGo首度在比赛中击败人类顶尖对手，造成广泛的讨论。实际上，其更广泛的应用在：计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域。

理论来源：深度学习起源于人们对神经网络的探索，因此也在认知神经学家的关注中，认知神经学认为，人类在大脑发育最具可塑性的阶段能够接触到更加复杂的外部场景，这可能帮助人类的大脑进行调节以适应快速变化的环境，而不是像其他动物的大脑那样更多地受到遗传结构的限制。

无论是RL还是DL，他们的进展都取决于人类对自身的理解和模型，并且赋予其一定的随机性而成的。

这样的探索，才刚刚开始。

与此同时，政府正在与社会自动化的潜在影响作斗争。——奥巴马的告别演说

意犹未尽 ……

关于人工智能这个话题，还有太多可以延伸的~希望深入了解的请自行检索，或者继续关注后续文章，此公众号将不定期推送~

    原文作者：竹说
    原文地址: https://www.jianshu.com/p/9bde6a2f474d
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。