强化学习

昨天看了一个节目,是一个动物行为矫正师(相当于训兽师)做的分享。分享他是怎么做动物行为矫正。例如如何训练小狗排便的行为。一开始把小狗活动空间限定在小房间里,多放几个便器,只要发现小狗在便器里大便或小便。就给它奖励,如火腿肠,或是其他狗狗喜欢的食物,而如果狗狗拉错地方的话就把地板弄干净,然后就像什么也没发生过一样。 等这个排便行为巩固得差不多之后就开始逐渐扩大它的活动空间,继续对正确排便行为进行奖励。然后慢慢减少便器到只有一个。训练好的狗狗,会在要排便时候到处找排便器,否则就会憋着不拉。

这是正确的训练方式,而错误的方式是使用惩罚,就是当狗狗拉错地方时就揍它,或是骂它。至于为什么惩罚方法效果不好,驯兽师在节目里没有给出具体原因?

为什么惩罚效果不好,有时甚至会引发狗狗异常的行为?

我的分析逻辑如下:狗狗把大便拉错地方的可能性远远大于拉到便器里的可能性。如果我们对错误的行为进行惩罚,因为每次犯错的地方都不一样,我们的惩罚会导致狗狗会形成错误的推理,即拉大便的行为本身就是被惩罚的原因,狗狗就会出现憋大小便,或是把大小便吃掉的行为。而对正确的行为的奖励,因为每次都会伴随着使用便器的行为出现,这样狗狗很快就能推导出大小便拉到便器里会有奖励。

但如果按这个逻辑,那么把惩罚与狗狗行为的因果关联更明确一些是否也会起到跟奖励一样的效果?

如果设计的好的话,可能会高效。 但是会有一个严重的副作用,即会破坏狗狗跟你的关系。狗狗会害怕你。狗狗会把你的形象跟惩罚关联起来,每次看到你就是被揍或是被辱骂。你说狗狗还会在你面前撒欢吗?

这样的训练其实是一种更为通用的训练方法的一个小应用而已。

这个通用的训练方法叫强化学习。强化学习也是目前人工智能发展的一个基础技术,主要用于训练计算机在一些复杂场景的决策模型,例如旋翼飞行器如何悬停,扫地机器人如何选择清扫房间的路线,机器人如何直立行走,阿尔法狗如何决定下一步在哪里落子, 以及自动驾驶系统何时转向和加速,等等。

但是如果我不是计算机或AI行业的从业人员,我可以从这个强化学习方法中学到什么呢?

下面我就分享两个强化学习思想如何运用到生活中的例子。

我有一个10岁的女儿,有时候我会去辅导她的英语,通常我的辅导都是以双方不愉快结束。典型的过程如下,我首先会让她自己读一篇文章,然后我来检查她阅读的发音,最后我们一起翻译这篇文章。在阅读过程中,我会发现她有些简单的单词都会读错,我就会纠正,纠正完了我还会说她文章没预习好,强调要预习。因为生词特别多,所以读错的也特别多,所以我每次纠正的语气也会越来越重。最后进到翻译阶段,我又会去针对她翻译后的中文语句不通顺的问题,认为她的语文学习也不努力。总之是都在强调她做得不好的地方。到最后她就直接崩溃了,泪如雨下。后来就不要我来辅导她的学习了。

这个过程中我明显意识到方法有问题,但又不知道该如何改进。

如果从强化学习的角度来看,就可以清晰的看到改进方向。首先学习一个新的学科,犯错误是正常的,因为语言是一个需要不断练习的肌肉技能。即便已经会了,不代表不会犯错。所以如果在做错的地方强调,不会强化她正确的方法,反而过多的强调错误会让她得出2个结论 1. 她学习能力不行 2.我不喜欢她,所以挑剔她。

所以在强化学习方法指导下正确的方法是:

读错的单词,立刻纠正读音,只讨论如何读对的方法。

一些复杂但是读对了的单词倒是要表扬,主要是强化正确的拼读方法,顺便提升士气。

翻译阶段,让她先独立翻译,再给出我的翻译。然后再解释为什么该这么翻译。双方一起讨论如何改进。

对她翻译的点评应该出现在她的水平有所提高之后,利用正面点评,进一步强化做得好的地方。

还分享一个例子就是我是如何利用“强化学习”的思想来学习“强化学习”技术的。

身处在这个指数巨变时代,而人工智能是推动这个指数巨变的底层技术。 而强化学习又是人工智能的底层技术。谁会不感兴趣呢?

但如果从最基础开始可能的结果会是一入侯门深似海,没等浮出来就放弃了。

如果能搭建一个强化训练的环境,在这个环境里不断的训练,最终掌握这么技术岂不是更好。

于是我就找了一本书“强化学习” ,为什么找这本书呢,除了书不错之外,主要原因是它每一章都有代码。关键是代码都能跑起来。这样我就可以先读代码,读到不懂地方就看书,这就类似强化学习里的探索。看完一章就立刻再看代码,因为一旦对书里的概念理解正确,那代码就可以看懂,这样不但验证理解无误,而且通过对代码的理解进一步强化了我的学习成果。而代码理解又可以反过来加快我对书的理解。书结合实际可运行的代码就是搭建的一个强化学习环境。我就用这个环境来学习“强化学习”。

    原文作者:天哥坐堂
    原文地址: https://www.jianshu.com/p/bbe2b01ca5f6
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞