机器学习(2):概率论与贝叶斯先验

概率论在机器学习中占有一定的份量,单纯的概率论是比较枯燥的,这节我们先从一个有趣的例子着手,引入生活中概率的应用,然后回顾经典的常用的概率公式、概率分布,由基本的概率分布引入机器学习常用的指数族分布。其次由事件的相关、不相关、独立,引入协方差矩阵。接着简单介绍切比雪夫不等式、大数定律和中心极限定理等。最后引入最大似然。
**

1、本福特定律

**
给定某个正整数N,统计从1到N!的所有数中,首位数字出现1的概率?进而可以计算首位是2的概率,是3的概率,从而得到一条”九点分布“。
直观第一反应,9个数字可能是等概率分布的,即都是1/9,实际情况,我们设定不同的N,用简单粗暴的方式画出来,如下:
《机器学习(2):概率论与贝叶斯先验》
从图中可以看出,首位出现1的概率和我们直观想象的差距很大。本福特定律(也称第一数字定律),是指在实际生活得出的一组数据中,以1为首位数字出现的概率约为总数的三成,是直观想象的三倍。
再来看一个阿里面试题,商品推荐模型:在某个场景推荐中,商品A和B与当前用户的访问匹配度分别为0.8和0.2,系统将随机为A生成一个均匀分布于0到0.8的最终得分,为B生成一个均匀分布于0到0.2的最终得分,计算最后B的得分大于A的得分的概率。
这里通过绘图更容易解释该问题,如下示。
《机器学习(2):概率论与贝叶斯先验》
**

2、概率公式

**
先来回顾一些基本概念。
条件概率: P(A|B)=P(AB)P(B)
全概率公式: P(A)=iP(A|Bi)P(Bi)
贝叶斯公式: P(A|B)=P(B|A)P(A)P(B)
先验概率:没有数据支持的情况下,事件A发生的概率P(A)
后验概率:在数据B的支持下,事件A发生的概率P(A|B)
似然函数:给定某参数A的概率分布,P(B|A)
**

3、分布

**

  • 1)两点分布,即0-1分布:

    事件只有1、0两种可能,1的概率为p,0的概率为1-p
    期望E(X)=1*p+0*(1-p)=p
    方差D(X)=E(X^2)-[E(X)]^2=p+0-p^2=p(1-p)=pq

  • 2)二项分布(伯努利分布):
    多个独立都服从两点分布的X,即X服从参数为n,p的二项分布
    E(X)=np
    D(X)=npq
  • 3)泊松分布
    我们先来考察taylor公式:
    《机器学习(2):概率论与贝叶斯先验》
    由于事件发生的概率总和为1,那么是否可以定义一种概率满足如上各个各项的分布呢?答案是肯定的,即泊松分布。
    定义如下:如果x满足分布律为:
    P{x=k}=λkk!eλ,k=0,1,2,3…
    则x服从泊松分布,其期望和方差都是 λ
    这里我们可以认为 λ 是一种衡量的度,即事件的密度。当某一随机事件,以固定的速率随机且独立的出现时,我们就认为该事件服从泊松分布。比如某一服务设施一定时间内出现的人数,机器出现的故障数等等。
    以上我们回顾的都是离散分布,下面我们来回顾下基本的连续分布。
  • 4)均匀分布
    当x在某一区间(a,b)内均匀出现,其概率密度服从:
    f(x)={1ba,0,a<x<b
    时,则为均匀分布。可通过积分计算出其期望和方差分别为:
    E(X)= 12(a+b)
    D(X)=E(x^2) – [E(x)]^2= (ba)212
  • 5)指数分布
    若x的概率密度函数为:
    f(x)={1θexθ,0,x>0x<=0
    其中 θ>0
    可以计算出指数分布的期望是 θ ,方差是 θ2
    其中 1θ 也经常写作 λ ,常被称作速率,即单位时间内发生某事件的次数。
  • 6)正态分布
    若x~N( μ , σ2 ),满足如下的概率密度:
    f(x)=12πσe(xμ)22σ2,σ>0
    则x是均值 μ 、方差 σ2 的正太分布。
    **

4、指数族分布

**
以上我们介绍了常用的3个离散分布和3个连续分布。下面我们简单介绍机器学习中第一个接触到的指数族分布。
如果基于 η 的某个事件y可以写成如下的分布形式:

p(y;η)=b(y)exp(ηTT(y)a(η))

这里

η 为自然参数,则为指数族分布。伯努利分布和高斯分布也都可以写成指数分布的形式。

比如伯努利分布,

P(y=1;p)=p;p(y=0;p)=1p; ,可以写成:

P(y;p)=py+(1p)(1y)

可以继续写成:

exp(ln(py+(1p)(1y)))=exp(ylnp+(1y)ln(1p))=exp(yln(p1p)+ln(1p))

至此,我们把伯努利分布写成了指数族的形式。

更进一步,如果令:

ϕ=ln(p1p) ,则可以得出


p=(1p)eϕ

进一步得到p=

11+eϕ ,该函数的分布位于(0,1)之间,必然经过(0,1/2)点,这就是后面机器学习用到的逻辑回归函数。

同理,也可以把高斯分布写成指数族分布的形式。

**

5、事件的独立、相关、不相关

**
独立:若两个事件A和B满足P(AB)=P(A)P(B),则A和B独立。
不相关:若X和Y不相关,则E(XY)=E(X)E(Y),协方差为0则为不相关
相关:协方差不为0,则相关
**

6、切比雪夫、大数定律

**

  • 切比雪夫不等式
    若事件X的期望 μ 、方差 σ2 ,则对任意正数 ϵ ,都有:
    p{|xμ|ϵ}σ2ϵ2
    切比雪夫不等式说明,方差越小,则x的取值基本落在均值附近。
  • 大数定律
    设随机变量 x1 x2 x3 …… xn …,相互独立,并且具有相同的期望 μ 和方差 σ2 ,取前n个随机变量的平均 Yn=1nni=1Xi ,则对任意正数 ϵ ,都有:
    limnp{|Ynμ|<ϵ}=1
    大数定律的意义:当n无限大时,其平均值无限接近于期望。
  • 伯努利定理
    对随机事件A,其发生的概率为p。重复n次独立试验中,事件A发生 nA 次,则对p、n、 nA ,则对任意正数 ϵ ,都有:
    limnp{|nAnp|<ϵ}=1
    上述定理说明,事件A发生的频率无限接近于概率,该定理直接的导致概率论这门学科的诞生。
  • 中心极限定理
    随机事件 x1 x2 x3 …… xn …,相互独立同分布,具有相同的期望 μ 和方差 σ2 ,则随机变量
    Yn=ni=1(xinμ)πσ
    收敛到标准的态分布。
    其意义在于,现实生活中的很多事情,可以看做是许多因素的独立影响的综合反映,往往近似服从正态分布(线性回归中,利用该定理论证最小二乘的合理性)。
    **

7、最大似然

**
最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
简单而言,假设我们要统计全国人口的年龄,首先假设这个年龄服从正态分布,但是对应的均值与方差未知。我们没有人力与物力去统计全国每个人的年龄,但是可以通过采样,获取部分人的年龄,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。
最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。下面我们具体描述一下最大似然估计。首先,假设为独立同分布的采样,θ为模型参数,f为我们所使用的模型,遵循我们上述的独立同分布假设。参数为θ的模型f产生上述采样可表示为:

f(x1,x2,x3,...xn|θ)=f(x1|θ)f(x2|θ)...f(xn|θ)

由于模型已定,参数未知,似然定义为:


L(θ|x1,x2,x3,...xn)=f(x1,x2,x3,...xn|θ)=i=1nf(xi|θ)

在实际应用中常用的是两边取对数,得到公式如下:


lnL(θ|x1,x2,x3,...xn)=i=1nlnf(xi|θ)

微积分中我们知道,一般求最大最小值,对目标求导数即可,对应导数为0则为最大或最小值。

比如:随机扔N次硬币,n次正面,N-n次反面,那么其对应模型为

pn(1p)Nn ,最大似然函数为:

nlnp+(Nn)ln(1p) ,其导数为:

npNn1p ,令其为0,则

p=nN ,和我们生活常识所熟知的一致。

点赞