产生式模型中概率分布的距离度量

全文下载地址:https://danilorezende.com/wp-content/uploads/2018/07/divergences.pdf
原题名:Short Notes on Divergence Measures
原作者:Danilo Jimenez Rezende
【写在前面】我从原文中截取了与我的研究方向关系较近的一小部分写在这里,供研究深度产生式模型或无监督学习(尤其是对KL距离感兴趣)的同学们参阅。顺序不完全依照原文。对此感兴趣的同学请自行参阅原文。

一、什么是两个概率分布的距离

在概率估计中,常遇到这样的问题:衡量概率密度函数P和Q的距离,这里P是数据的真实分布,Q是某参数分布,作为产生式模型对P的近似。

形式化为,距离《产生式模型中概率分布的距离度量》,参数分布《产生式模型中概率分布的距离度量》具有参数《产生式模型中概率分布的距离度量》,真实数据分布《产生式模型中概率分布的距离度量》为Q近似的目标。优化《产生式模型中概率分布的距离度量》使《产生式模型中概率分布的距离度量》最小。

对于距离《产生式模型中概率分布的距离度量》,须满足三个公理:反身性、对称性、三角不等式。

  1. 反身性:《产生式模型中概率分布的距离度量》
  2. 对称性:《产生式模型中概率分布的距离度量》
  3. 三角不等式:《产生式模型中概率分布的距离度量》

二、热门的KL距离,你为啥很火

KL距离,全称Kullback-Leibler divergence,也叫相对熵(relative entropy)或相对信息(relative informatioin)。KL距离牵涉到一个通信过程的问题:如何在收信者已知概率密度P的基础上,将Q分布传递给收信者。众多机器学习算法用KL距离作度量,是否仅仅是历史的路径依赖?更何况KL距离不满足对称性公理呢。
这里就要说到KL到底在干啥,用白话说就是用逻辑一致的方法来度量信息带来的惊讶程度,或信念转变的程度。后半句好理解,重点讲讲前半句。
根据文献[1],一个有道理的度量概率密度《产生式模型中概率分布的距离度量》相对概率密度《产生式模型中概率分布的距离度量》的距离《产生式模型中概率分布的距离度量》,应该满足三个条件:
i.局部性,即局部的效应引发局部的反应。这样就将《产生式模型中概率分布的距离度量》局限在这样的形式下:《产生式模型中概率分布的距离度量》。换句话说,衡量《产生式模型中概率分布的距离度量》《产生式模型中概率分布的距离度量》的距离必须在《产生式模型中概率分布的距离度量》的条件下。这一条件对于《产生式模型中概率分布的距离度量》没有限制。
ii.坐标不变性,即用来表示概率密度的坐标中不含信息,所以换另一种坐标对结果不产生影响。用《产生式模型中概率分布的距离度量》表示对度量的可逆变换,《产生式模型中概率分布的距离度量》,则
《产生式模型中概率分布的距离度量》
《产生式模型中概率分布的距离度量》
为了让《产生式模型中概率分布的距离度量》,有
《产生式模型中概率分布的距离度量》
《产生式模型中概率分布的距离度量》就不再是任意选取,而必须采用形式
《产生式模型中概率分布的距离度量》
其中《产生式模型中概率分布的距离度量》的输出是一个数值,而《产生式模型中概率分布的距离度量》必须是一个概率密度函数。
【为了“干掉”《产生式模型中概率分布的距离度量》,《产生式模型中概率分布的距离度量》《产生式模型中概率分布的距离度量》必须一个是分子,一个是分母,这里选择q上p下;因为换元《产生式模型中概率分布的距离度量》。为了干掉这一项,必须外面再出现一个概率密度函数,《产生式模型中概率分布的距离度量》或者《产生式模型中概率分布的距离度量》
所以
《产生式模型中概率分布的距离度量》或者《产生式模型中概率分布的距离度量》
iii.子系统可加性,即不同独立的子系统的信息满足可加性。这一限制将度量函数《产生式模型中概率分布的距离度量》局限在《产生式模型中概率分布的距离度量》这一类函数上。
满足这三个条件的只有KL距离,满足这三个条件的只有KL距离,满足这三个条件的只有KL距离。重要的事情说三遍。
【从上文可知定义《产生式模型中概率分布的距离度量》应该也满足三个条件,但是不满足非负性《产生式模型中概率分布的距离度量》。可以这样说明:《产生式模型中概率分布的距离度量》
《产生式模型中概率分布的距离度量》表示《产生式模型中概率分布的距离度量》分布的混乱程度,《产生式模型中概率分布的距离度量》表示《产生式模型中概率分布的距离度量》联合分布的混乱程度,而《产生式模型中概率分布的距离度量》

三、还有其他的度量吗?

对于上一节的三个条件做适当放松,我们可以得到以下这些度量方式:
1.f-divergence族。形式为《产生式模型中概率分布的距离度量》,这里《产生式模型中概率分布的距离度量》是任意的凸函数,满足条件i和条件ii。
2.Stein divergence。形式为《产生式模型中概率分布的距离度量》,这里《产生式模型中概率分布的距离度量》是平滑函数满足《产生式模型中概率分布的距离度量》。违反条件ii和条件iii
3.Cramer/能量 距离《产生式模型中概率分布的距离度量》,其中《产生式模型中概率分布的距离度量》并且《产生式模型中概率分布的距离度量》。违反全部i、ii、iii。如果把《产生式模型中概率分布的距离度量》换成测地线距离,则符合条件ii,但距离结果是负数。
4.Wasserstein距离《产生式模型中概率分布的距离度量》,其中《产生式模型中概率分布的距离度量》并且符合边际概率条件《产生式模型中概率分布的距离度量》《产生式模型中概率分布的距离度量》。违反全部条件。如果把《产生式模型中概率分布的距离度量》换成测地线距离,则符合条件ii。
5.Fisher距离《产生式模型中概率分布的距离度量》。符合条件i,如果在度量不变的空间符合条件ii。

Reference

[1]Ariel Caticha. Relative entropy and inductive inference. In AIP Conference Proceedings, volume 707, pages 75�96. AIP, 2004.

    原文作者:WilliamY
    原文地址: https://www.jianshu.com/p/571edb528905#comments
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞