全文下载地址:https://danilorezende.com/wp-content/uploads/2018/07/divergences.pdf
原题名:Short Notes on Divergence Measures
原作者:Danilo Jimenez Rezende
【写在前面】我从原文中截取了与我的研究方向关系较近的一小部分写在这里,供研究深度产生式模型或无监督学习(尤其是对KL距离感兴趣)的同学们参阅。顺序不完全依照原文。对此感兴趣的同学请自行参阅原文。
一、什么是两个概率分布的距离
在概率估计中,常遇到这样的问题:衡量概率密度函数P和Q的距离,这里P是数据的真实分布,Q是某参数分布,作为产生式模型对P的近似。
形式化为,距离,参数分布具有参数,真实数据分布为Q近似的目标。优化使最小。
对于距离,须满足三个公理:反身性、对称性、三角不等式。
- 反身性:
- 对称性:
- 三角不等式:
二、热门的KL距离,你为啥很火
KL距离,全称Kullback-Leibler divergence,也叫相对熵(relative entropy)或相对信息(relative informatioin)。KL距离牵涉到一个通信过程的问题:如何在收信者已知概率密度P的基础上,将Q分布传递给收信者。众多机器学习算法用KL距离作度量,是否仅仅是历史的路径依赖?更何况KL距离不满足对称性公理呢。
这里就要说到KL到底在干啥,用白话说就是用逻辑一致的方法来度量信息带来的惊讶程度,或信念转变的程度。后半句好理解,重点讲讲前半句。
根据文献[1],一个有道理的度量概率密度相对概率密度的距离,应该满足三个条件:
i.局部性,即局部的效应引发局部的反应。这样就将局限在这样的形式下:。换句话说,衡量和的距离必须在的条件下。这一条件对于没有限制。
ii.坐标不变性,即用来表示概率密度的坐标中不含信息,所以换另一种坐标对结果不产生影响。用表示对度量的可逆变换,,则
为了让,有
就不再是任意选取,而必须采用形式
其中的输出是一个数值,而必须是一个概率密度函数。
【为了“干掉”,和必须一个是分子,一个是分母,这里选择q上p下;因为换元。为了干掉这一项,必须外面再出现一个概率密度函数,或者】
所以
或者。
iii.子系统可加性,即不同独立的子系统的信息满足可加性。这一限制将度量函数局限在这一类函数上。
满足这三个条件的只有KL距离,满足这三个条件的只有KL距离,满足这三个条件的只有KL距离。重要的事情说三遍。
【从上文可知定义应该也满足三个条件,但是不满足非负性。可以这样说明:
表示分布的混乱程度,表示联合分布的混乱程度,而】
三、还有其他的度量吗?
对于上一节的三个条件做适当放松,我们可以得到以下这些度量方式:
1.f-divergence族。形式为,这里是任意的凸函数,满足条件i和条件ii。
2.Stein divergence。形式为,这里是平滑函数满足。违反条件ii和条件iii
3.Cramer/能量 距离。,其中并且。违反全部i、ii、iii。如果把换成测地线距离,则符合条件ii,但距离结果是负数。
4.Wasserstein距离。,其中并且符合边际概率条件和。违反全部条件。如果把换成测地线距离,则符合条件ii。
5.Fisher距离。。符合条件i,如果在度量不变的空间符合条件ii。
Reference
[1]Ariel Caticha. Relative entropy and inductive inference. In AIP Conference Proceedings, volume 707, pages 75�96. AIP, 2004.