强化学习基础

2019年5月11日 354次阅读来源: 石晓文的学习日记

1、背景介绍
学习和推理是人类智能最重要的体现，为了使计算机也能够像人一样学习和决策，机器学习技术应运而生。机器学习利用计算机来模拟和实现人类学习和解决问题的过程，计算机系统通过不断自我改进和学习，自动获取知识并作出相应的决策、判断或分析。机器学习是人工智能的一个重要的研究领域，根据是否从系统中获得反馈，可以把机器学习分为有监督、无监督和强化学习三大类。
监督学习也称有导师学习，给定系统一组输入时，需要给定一组对应的输出，系统在一种已知输入-输出数据集的环境习学习。与监督学习相反的是无监督学习，也称无导师学习。无监督学习中，只需要给定一组输出，不需要给定对应的输出，系统自动根据给定输入的内部结构来进行学习。有监督和无监督的机器学习模式可以解决绝大多数的机器学习问题，但这两种机器学习模式同人类学习、生物进化的过程有很大的不同。生物的进化是一种主动对环境进行试探，并根据试探后，环境反馈回来的结果进行评价、总结，以改进和调整自身的行为，然后环境会根据新的行为作出新的反馈，持续调整的学习过程。体现这一思想的学习模式在机器学习领域称为强化学习（Reinforcement Learning， RL），又称增强学习。因此，强化学习是一种痛有监督学习、无监督学习并列的机器学习模式。

《强化学习基础》

2、强化学习系统
整个强化学习系统由智能体（Agent）、状态（State）、奖赏（Reward）、动作（Action）和环境（Environment）五部分组成，系统示意图如下图所示。

《强化学习基础》

智能体（Agent）：Agent是整个强化学习系统核心。它能够感知环境的状态（State），并且根据环境提供的强化信号（Reward Si），通过学习选择一个合适的动作（Action），来最大化长期的Reward值。简而言之，Agent就是根据环境提供的Reward做为反馈，学习一系列的环境状态（State）到动作（Action）的映射，动作选择的原则是最大化未来累积的Reward的概率。选择的动作不仅影响当前时刻的Reward，还会影响下一时刻甚至未来的Reward，因此，Agent在学习过程中的基本规则是：如果某个动作（Action）带来了环境的正回报（Reward），那么这一动作会被加强，反之则会逐渐削弱，类似于物理学中条件反射原理。

环境（Environment）：环境会接收Agent执行的一系列的动作（Action），并且对这一系列的动作的好坏进行评价，并转换成一种可量化的（标量信号）Reward反馈给Agent，而不会告诉Agent应该如何去学习动作。Agent只能靠自己的历史（History）经历去学习。同时，环境还像Agent提供它所处的状态（State）信息。环境有完全可观测（Fully Observable）和部分可观测（Partial Observable）两种情况。

奖赏（Reward）：环境提供给Agent的一个可量化的标量反馈信号，用于评价Agent在某一个时间步（time Step）所做action的好坏。强化学习就是基于一种最大化累计奖赏假设：强化学习中，Agent进行一系列的动作选择的目标是最大化未来的累计奖赏（maximization of future expected cumulative Reward）。

历史（History）：历史就是Agent过去的一些列观测、动作和reward的序列信息: Ht = S1,R1,A1,…….At-1,St,Rt。 Agent根据历史的动作选择，和选择动作之后，环境做给出的反馈和状态，决定如何选择下一个动作（At）。

状态（State）：状态指Agent所处的环境信息，包含了智能体用于进行Action选择的所有信息，它是历史（History）的一个函数：St = f（Ht）。
可见，强化学习的主体是Agent和环境Environment。Agent为了适应环境，最大化未来累计奖赏，做出的一些列的动作，这个学习过程称为强化学习。
3、强化学习的基本要素
一个强化学习系统，除了Agent和环境（Environment）之外，还包括其他四个要素：策略（Policy，P）、值函数（Value Function，V）、回报函数（Reward Function ，R）和环境模型（Environment Model），其中，环境模型是可以有，也可以没有（Model Free）。这四个要素之间的关系如下图所示。

《强化学习基础》

策略（Policy）：表示状态到动作的映射。策略的表达式如下。

《强化学习基础》

定义Agent在t时刻的行为方式，直接决定Agent的行动，是整个强化学习系统的核心。策略pi : S X A -> [0,1]或者pi： S -> A，表示在状态S下选择动作A的概率，其中，S代表Agent所有状态State的集合（状态空间），A代表Agent所有动作集合（动作空间）。在任意的状态（State）下，存在由策略pi组成了策略集合F，任意策略pi属于F，在策略集合存在一个使问题具有最优效果的策略pi
，称为最优策略，强化学习的目的寻找最优的策略pi。

回报函数（Reward Function）：定义了强化学习问题的目标，Agent通过一些列的策略（Policy）选择，最终通过回报函数映射到一个Reward信号，产生关于一个动作好会的评价。Reward信号是一个标量，一般采用正数表示奖赏，负数表示惩罚。

值函数（Value Function）：回报函数计算当前的策略的好坏，但没法衡量策略未来的好坏，因此，通过值函数（Value Function）来预测未来的Reward的值，从长远角度来评价策略的好坏。为什么需要从未来角度来衡量策略pi的好坏？有两个原因：1、环境对于策略的给出的评价往往是由延迟的；2、Agent选择的当前动作或者策略，会对未来的状态或者策略选择产生影响，Agent在进行动作选择时，某些动作产生的当前回报值比较高，但从长远来看，可能并没有那么高。因此，需要采用值函数（Value Function）来评估Agent所处的状态的好坏，指导Agent进行动作（Action）的选择。值函数的表达式如下。

《强化学习基础》

环境模型（Environment Model）：它使强化学习系统中可选的部分。将强化学习和动态规划等方法结合在一起，环境模型用于模拟环境的行为方式，比如，给定一个状态和动作情况下，环境模型可以预测下一步的状态和回报。借助环境模型，Agent可以在进行策略选择时，考虑未来可能发生的情况，提前进行规划。用P表示下一步状态，R表示下一步的回报，环境模型可以表示成如何形式。

《强化学习基础》

    原文作者：石晓文的学习日记
    原文地址: https://www.jianshu.com/p/d24bbd633362
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。