参数的点估计问题与矩估计法

2024年5月22日 176次阅读来源: jk大懒猫

机器学习的许多公式推导都涉及了数理统计的内容，特别是参数估计对理解机器学习很重要。这里三篇文章就对三种参数估计方法进行简单介绍。

对一些数理统计的基本概念的介绍，可参考之前的文章“数理统计学的基本概念”。

参数的点估计问题

设有一个统计总体，以 f(x;θ1,⋯,θk) f ( x ; θ 1 , ⋯ , θ k ) 记其概率密度函数（若总体分布为连续型的）或其概率函数（若其总体分布为离散型的）。避免重复交代这两种情况，我们约定称 f(x;θ1,⋯,θk) f ( x ; θ 1 , ⋯ , θ k ) 为“总体分布”，其具体含义视其为连续型或离散型而定。这个分布包含k个位置参数 θ1,⋯,θk θ 1 , ⋯ , θ k 。例如，对正态总体分布 N(μ,δ2) N ( μ , δ 2 ) ，有 θ1=μ θ 1 = μ ， θ2=δ2 θ 2 = δ 2 ，而

f(x;θ1,θ2)=(2πθ2‾‾‾‾‾√)−1exp(−12θ2(x−θ1)2)(−∞<x<∞) f ( x ; θ 1 , θ 2 ) = ( 2 π θ 2 ) − 1 exp ⁡ ( − 1 2 θ 2 ( x − θ 1 ) 2 ) ( − ∞ < x < ∞ )

若总体有二项分布

B(n,p) B ( n , p ) ，则

θ1=p θ 1 = p ，而

f(x;θ1)=(nx)θx1(1−θ1)n−k(x=0,1,⋯,n) f ( x ; θ 1 ) = ( n x ) θ 1 x ( 1 − θ 1 ) n − k ( x = 0 , 1 , ⋯ , n )

当k=1，即只有一个参数时，就用

θ θ 代替

θ1 θ 1

参数估计问题的一般提法是：设有了从总体中抽出样本 X1,⋯,Xn X 1 , ⋯ , X n （独立同分布），要依据这些样本去对参数 θ1,⋯,θk θ 1 , ⋯ , θ k 的未知值做出估计。当然我们也可以只要求估计 θ1,⋯,θk θ 1 , ⋯ , θ k 中的一部分，或估计他们的某个已知函数 g(θ1,⋯,θk) g ( θ 1 , ⋯ , θ k ) 。例如，为要估计 θ1 θ 1 ，我们需要构造出适当的统计量 θ1^=θ1^(X1,⋯,Xn) θ 1 ^ = θ 1 ^ ( X 1 , ⋯ , X n ) 。每当有了样本 X1,⋯,Xn X 1 , ⋯ , X n ，就代入函数 θ1^(X1,⋯,Xn) θ 1 ^ ( X 1 , ⋯ , X n ) 中计算出一个值，用来作为 θ1 θ 1 的估计值。为着这样的特定目的而构造的统计量 θ1^ θ 1 ^ 叫做 θ1 θ 1 的估计量。由于未知参数 θ1 θ 1 是数轴上的一个点，用 θ1^ θ 1 ^ 去估计 θ1 θ 1 ，等于用一个点估计另一个点，所以这样的估计叫做点估计，以别与区间估计。

矩估计法

矩估计法的思想比较简单：设总体分布为 f(x;θ1,⋯,θk) f ( x ; θ 1 , ⋯ , θ k ) ，则它的矩（原点矩和中心矩都可以，此处以原点矩为例）

αm=∫∞−∞xmf(x;θ1,⋯,θk)dx(或∑ixmi)f(x;θ1,⋯,θk)） α m = ∫ − ∞ ∞ x m f ( x ; θ 1 , ⋯ , θ k ) d x ( 或 ∑ i x i m ) f ( x ; θ 1 , ⋯ , θ k ) ）

依赖于

θ1,⋯,θk θ 1 , ⋯ , θ k 。另一方面，至少在样本大小n较大时，样本原点矩

am a m 应该接近于

αm α m 。于是

αm=αm(θ1,⋯,θk)≈am=∑i=1nXmi/n α m = α m ( θ 1 , ⋯ , θ k ) ≈ a m = ∑ i = 1 n X i m / n

取

m=1,⋯,k m = 1 , ⋯ , k ，并将上面的近似式改成等式，就得到一个方程组：

αm(θ1,⋯,θk)=am(m=1,⋯,k) α m ( θ 1 , ⋯ , θ k ) = a m ( m = 1 , ⋯ , k )

解此方程组，得起根

θ1^(X1,⋯,Xn)(i=1,⋯,k) θ 1 ^ ( X 1 , ⋯ , X n ) ( i = 1 , ⋯ , k ) ，就以

θ̂ i θ ^ i 作为

θi θ i 的估计

(i=1,⋯,k) ( i = 1 , ⋯ , k ) 。如果要估计的是

θ1,⋯,θk θ 1 , ⋯ , θ k 的某函数

g(θ1,⋯,θk) g ( θ 1 , ⋯ , θ k ) ，则用

ĝ (X1,⋯,Xn)=g(θ̂ 1,⋯,θ̂ k) g ^ ( X 1 , ⋯ , X n ) = g ( θ ^ 1 , ⋯ , θ ^ k ) 去估计它。这样定出的估计量就叫做矩估计。

例子

设 X1,⋯,Xn X 1 , ⋯ , X n 是从正态总体 N(μ,δ2) N ( μ , δ 2 ) 中抽取的样本，要估计 μ μ 和 δ2 δ 2 。 μ μ 是总体的一阶原点矩，按矩估计，用样本的一阶原点矩，即样本均值 X⎯⎯⎯⎯ X ¯ 去估计。 δ2 δ 2 是总体方差，即总体的二阶中心矩，可用样本的二阶中心矩 m2 m 2 去估计。一般地，在估计方差时，常用样本方差 S2 S 2 而不用 m2 m 2 ，即对矩估计做了一定的修正。

参考书目
《概率论与数理统计》——陈希孺

    原文作者：jk大懒猫
    原文地址: https://blog.csdn.net/u012074597/article/details/79713561
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。