【通俗解释】P_value 假设检验

故事一:

教室里四位同学将装了若干数量的白球和黑球的箱子放在了课桌上,然后他们叫来了他们的小伙伴小花同学。

他们对小花说:“小花,我们来玩个猜猜猜的游戏吧,你在这个箱子里摸5次球,每次摸完都要放回去再摸下一次,然后你猜里面的白球和黑球是不是一样多。”,小花就愉快地同意了。

小花按照要求摸了三次球,每一次都是白球,这时她的心里已经有点怀疑白球和黑球是不是各一半了,她又继续摸,又摸了两次,还都是白球,这时她就大声地说:“箱子里面的白球和黑球肯定不是一样多的”。

小伙伴们打开箱子,发现果然大部分的球都是白球。

小花的判断为什么会对呢?来做个简单的概率计算,如果白球和黑球数量一样多的话,那么每次都摸到白球的概率是1/2。

她连摸三次都是白球的概率是:1/2*1/2*1/2=1/8=12.5%,这种事件发生的概率已经很低。
她连摸五次都是白球的概率是:1/2*1/2*1/2*1/2*1/2=1/32=3.125%,这种事件发生的概率已经极低。

这就是假设检验的原理:在一定的统计假设的前提下,如果发生了小概率事件,我们就有理由怀疑假设的真实性,从而拒绝接受该假设。

小概率事件不会发生,是假设检验的前提。

在这个摸球故事中,假设是白球与黑球数量相同,但是小花摸了5次都是白球,概率是3.125%属于小概率事件,因此我们拒绝假设,也就是拒绝认为白球与黑球数量相同。

最后一个问题,概率低到多少会被认为是小概率事件呢?
英国的统计学家Ronald Fisher把1/20作为小概率标准,也就是0.05,从此0.05或者比0.05小就叫做小概率事件。

这个0.05就是P Value.

—————————————————————

小结:

P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。
—————————————————————
故事二:

从前,你有个朋友,他每月开一辆小货车去市场里采购东西,然后再把所有这些东西转卖出去。月复一月,年复一年。

但是,因为市场行情变动,每一个月他卖东西得到的毛爷爷数目并不一样,差不多有个5000块钱左右吧。你呢能看到他每个月的收入统计。

时间长了,有一次,无聊的你准备戏耍一下这个无辜的小伙伴,你偷偷在他的小货车上装了一小瓶尿。既然他肯定会在集市上卖掉所有东西,那么这一小瓶尿他一定也会卖出去,只不过这瓶尿的价格可能也就是零吧。

这一次他赚了5400块,这可比以往的平均数5000块钱还多。那问题就来了:为什么这个月他赚的比平常多呢?

有两种情况:其一,你那瓶尿很值钱,他自然会多赚;其二,你那瓶尿根本不值钱,他多赚了只是因为这个月市场上行情不错。

那到底是哪种情况呢?这个问题的实质是,你那瓶尿到底值不值钱。如果这瓶尿根本不值钱,那他卖东西和以前卖东西的情况没什么两样,只不过是市场行情影响而已。于是,你翻了他以前卖东西的纪录,算了算所有他的个人月收入超过5400块的概率,大概是0.1。也就是说在你这瓶尿没有任何价值的情况下,只靠市场行情,他只有0.1的概率卖到5400块。

所以你得出的结论是,你的那瓶尿有价值,你这个结论的p值就是0.1。

===================

故事讲完了,来分析一下。

为什么要用p值?换句话说,为什么要做推断统计?我想,p值到底是啥并不重要,我知道你做研究时多半只是负责看看p到底有没有比0.05小的。而这个问题,才是我最想告诉你的。

推断统计,之所以要“推断”,是因为我们没有办法正面验证某种情况。在这个故事中,你以前没干过偷偷把一瓶尿放在车上的事儿,他以前也没卖过你的尿,所以尽管你有的是他的销售数据,但那些旧账本没办法正面告诉你你的尿到底值不值钱。

这就是“没办法正面验证”,在这样的情况下,你就没办法了么?非也,我们可以换个角度考虑这个问题,假设“你那瓶尿毫无价值”是成立的,他卖了这瓶尿跟没卖时候没什么两样,那这一次和以往自然也没什么两样。既然这次卖东西和以往一样,那旧账本中的记录就能帮到你了。你可以算算旧账本,他在没卖过你那瓶尿的情况下,赚到5400块及以上的可能性(概率),这个概率就是“你那瓶尿毫无价值”的概率,这里也就是0.1.

这样,“你那瓶尿有价值”的概率,当然就是这个假设的相反情况,也就是0.9,这也是你的假设成立的可能性。

那这个p值到底显著与否呢?那得看市场行情。这里市场行情是随机的,所以“显著”与否简单点就是在说你那瓶尿能不能跑赢市场。业内经常以两个标准差作为衡量“显著”的标准。绝大多数情况下,作为随机变量的市场行情服从正态分布。而正态分布中,超过两个标准差的概率是0.05,这也就是为什么大家要拿0.05作为“公认”的显著性水平尺度了。

统计推断,核心就是反证法。你那瓶尿没价值的可能性越小,反而越能证明你那瓶尿有价值。

“在原假设成立的情况下抽到的统计量与原假设之间的距离至少等于样本计算值与原假设之间的距离”

这是你的书上写的定义,但是很明显,你把结尾最重要的“的概率”三个字漏掉了。正常情况下,这个定义应该是

“在原假设成立的情况下抽到的统计量与原假设之间的距离至少等于样本计算值与原假设之间的距离的概率”

不信你可以再看看你的书。

但是,怎么可以容忍这么反人类的定义?我们来用这个故事做个转换吧:

“在原假设成立的情况下” -> 在你那瓶尿不值钱情况下

“抽到的统计量与原假设之间的距离” -> 他旧账本里的销售记录

“至少等于” -> 大于或等于

"样本计算值与原假设之间的距离" -> 他这一次的销售记录(5400块)

“的概率” -> 的概率

连起来读读,p值的定义就变成:

“在你那瓶尿不值钱的情况下,他旧账本里的销售记录大于或等于他这一次的销售记录(5400块钱)(这个事件发生)的概率。”

这一次,好懂了点吗?

最后要说明,说得通俗易懂是要承担风险的,因为通俗很可能意味着不严谨,易懂很可能意味着不周全。以上有很多有失严谨之处,希望题主还要多多看书哇。

最后的最后,为什么我要用“一瓶尿”这样一个非常粗俗不雅的故事?因为所谓的p value,不就是用来证明你的pee value的么?

个人观点,仅供参考!

    原文作者:guomutian911
    原文地址: https://blog.csdn.net/guomutian911/article/details/74931574
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞