熵，互信息

2019年5月9日 160次阅读来源: jockerMe

香农被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathematical Theory of Communication》（通信的数学理论）作为现代信息论研究的开端。在该文中，香农首次给出了信息熵（以下简称为“熵”）的定义，

熵在数据挖掘中的决策树，以及特征工程中都有应用。通过互信息的变化，来决定决策树中决策变量的选择，以及特征工程因变量的选择。以下介绍几个常用的基本概念。

熵是表示随机变量不确定性的度量，X 是一个取有限值的离散随机变量，其概率分布为：

《熵，互信息》

则随机变量X的熵定义为

《熵，互信息》

当随机变量仅有两个值时，可以绘制熵随两个随机变量概率变化的图像如下：

《熵，互信息》

可以看出，当随机变量取值的概率为0或1时，熵最小，完全没有不确定性。而当随机
变量的概率取值为0.5时，熵最大，随机变量的不确定性也就最大。

当随机变量为多维随机变量时，其联合概率分布为：

《熵，互信息》

条件熵H(Y|X)，表示已知随机变量X的条件下随机变量Y的不确定性，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：

《熵，互信息》

信息增益表示特征X的信息使得Y的信息的不确定性减少的程度，定义为集合D的经验熵H(D)与特征A给定的条件下D的经验熵H(D|A)之差：

《熵，互信息》

熵与条件熵只差称为互信息。

《熵，互信息》

    原文作者：jockerMe
    原文地址: https://www.jianshu.com/p/a3b183e12814
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。