熵,互信息

香农被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathematical Theory of Communication》(通信的数学理论)作为现代信息论研究的开端。在该文中,香农首次给出了信息熵(以下简称为“熵”)的定义,

熵在数据挖掘中的决策树,以及特征工程中都有应用。通过互信息的变化,来决定决策树中决策变量的选择,以及特征工程因变量的选择。以下介绍几个常用的基本概念。

熵是表示随机变量不确定性的度量,X 是一个取有限值的离散随机变量,其概率分布为:

《熵,互信息》

则随机变量X的熵定义为

《熵,互信息》

当随机变量仅有两个值时,可以绘制熵随两个随机变量概率变化的图像如下:

《熵,互信息》

可以看出,当随机变量取值的概率为0或1时,熵最小,完全没有不确定性。而当随机
变量的概率取值为0.5时,熵最大,随机变量的不确定性也就最大。

条件熵

当随机变量为多维随机变量时,其联合概率分布为:

《熵,互信息》

条件熵H(Y|X),表示已知随机变量X的条件下随机变量Y的不确定性,定义为X给定条件下Y的条件概率分布的熵对X的数学期望:

《熵,互信息》

互信息(信息增益)

信息增益表示特征X的信息使得Y的信息的不确定性减少的程度,定义为集合D的经验熵H(D)与特征A给定的条件下D的经验熵H(D|A)之差:

《熵,互信息》

熵与条件熵只差称为互信息。

  1. H(D)的计算公式

    《熵,互信息》

  2. H(D|A)的计算公式

《熵,互信息》

    原文作者:jockerMe
    原文地址: https://www.jianshu.com/p/a3b183e12814
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞