统计和概率教会我什么?

本文两个部分,第一部分讲统计学中的一些基本概念和一个应用;第二部分则是概率学的基本观点,主要是自己对概率视角审视世界的一点思考。

大部分的图片引用自 @猴子 老师的 Live ,有兴趣的可以听一听。

1. 平均的终结 —— 为什么我不相信平均数了

1.1 你被平均了吗?

我们生活在一个被平均的时代。

我工作在福州,随手一查了2017年的福州的平均工资:7015 元,再看了看自己的,不提了。显然我并不是孤例,只要稍微有一点生活经验的人都知道,二三线城市的大部分人拿的工资绝对不会这么高。我们都被平均了。

一群面朝黄土背朝天的农民兄弟苦哈哈的每年拿着微薄的血汗钱,但是只要村里面出了一个「马云」式的人,全村的平均收入那都成当年的华西村了。如果我是农民兄弟,当你拿着平均数笑嘻嘻的对农民兄弟说你们村真富的时候,我会给你一锄头。

不仅仅是收入,社会上太多地方都是被平均了:平均身高、平均体重、平均年龄,人们从工业时代以来都对这些「平均」深信不疑,但是现在应该回过神来了。

只讲平均是不可靠的。

1.2 正确的数据观念

那么如果不只讲平均数,我们应该再讲些什么呢?

1.2.1 中位数 —— 中间的那个人

平均数最大的弱点在于它会被异常值所影响,我这里打趣的称为「马云效应」:马云在哪里,哪里人的收入就「被增高」,当然也存在异常小的情况。

现在就出现了一个新的概念 —— 中位数。中位数,顾名思义就是中间位置的那个数字。总数在奇数的情况下即为中间的数字,偶数情况下则为中间两个数字的平均数。中位数的优点就在于不受异常值干扰,可以比平均数更好的反应数据的集中趋势

当然中位数也不是没有缺点的,它的问题在于不能推算总体。你能通过中位数大体的知道中间的位置,能知道样本中的数据量是偏上,偏下还是正态,但是除此之外你就不能掌握更多的信息了。

如何克服中位数的缺点呢?

1.2.2 四分数 —— 中位数的中位数

答案很简单 —— 「四分数」

对于九年义务教育的大家来说,中位数和平均数绝对不陌生,但是四分数就是一个新词了。

其实理解起来也很简单:再取一次中位数。针对被中位数划分的两段数据,分别再取一次区间内的中位数,这样你就得到了四个数据段,四分数的名称由此而来。

这时候通过四分数你可以清晰的观察数据的分布情况。我举一个比较冷门的例子:如果读者有使用三维绘图软件的经历的话,应该知道「样条曲线」,样条曲线是在一条曲线中有若干个点,你可以通过每个点来控制曲线的形状,曲线中的点越多,你就越能精确的控制曲线的形状。四分数也一样,在数据的「曲线」中,中位数只有一个点,而四分数有3个点。按照刚才的例子,你是不是就能更好的观察数据「曲线」的形状了呢?

形象的解释完四分数,我们来讲一下四分数的几个概念。一般我们把使用四分数的时候会把数轴垂直放置,然后底部为低值成称为「下界」,顶部为高值称为「上界」,然后再数轴上从下到上画出四分数的三个点,依次是下「四分位数Q1」,「中位数Q2」,「上四分位数Q3」。

画完数轴后在边上我们先标出最高和最低值,然后把Q1到Q3间的部位画一个矩形,在里面标出Q2位置,然后矩形被划分出的上下两部分涂上不同颜色,最后用虚线把刚才的上下界和矩形连接起来就如下图,这就是四分数的一个重要应用 —— 「箱线图」。具体的例子我们在1.3中说明。而运用四分数还有一些估算方面的应用暂时不在本章的讨论范围内吗,讲太多读者不好接受我打字也累……

《统计和概率教会我什么?》
《统计和概率教会我什么?》

1.2.3 标准差 —— 你是「神经刀」选手吗

说完了四分数,那现在又有问题了。

假设你现在手头上有你儿子一学期10次考试的成绩(不要问我为什么是10次),你能很明显的看出来你的儿子考试发挥的稳定与否:考了一次50分后迅速的考了98,然后又考了一个77 ——说明你儿子发挥很不稳定,是个「神经刀」选手,「神经刀」选手一般在电竞游戏经常被使用,用来说明一个选手状态起伏不定。

那么如果你面对数据量更大呢?比如有100000000个数据,你的直接观察就不起作用了,你需要一个指标来辅助你对数据集做出判断。

「标准差」应运而生,标准差和平均数一样不是什么新概念,正常的接受九年义务教育的中国人都知道这个(我知假设你有好好读书!)。我就不再细讲定义和算法了。总之如果你要了解一组数据的「波动」情况,相信我,标准差是一个很好的选择。

《统计和概率教会我什么?》
《统计和概率教会我什么?》

1.2.4 标准分 —— 你在什么层次

讲一个故事。

一天,康康家发生以下对话

「爸,今天英语考试我考了80。」

「考的还可以啊!」

「满分150。」

「你个小兔崽……」

「先听我说完,我是全班第二!」

「话说半截,找死啊你!对了我问你为什么只考第二,你爸我当年英语 都是第一……」

……

好了故事讲完了,针对这个故事联系统计学,我们想知道的是有没有一个指标可以衡量一个数字在一组中所处的相对位置呢?毕竟低分不可耻,可耻的是你考倒数。

还真有这么一个数字:「标准分」(不是百分比)。标准分是一个计算一个数字距离数字所处的集合的平均值多少个标准差的公式,我把公式放在下面。这个标准分有正负,正的表示你高于平均,反之则是低于。

《统计和概率教会我什么?》
《统计和概率教会我什么?》

为什么不用百分比呢?以考试距离,百分比无法排除掉考卷难易程度的不一致,从而使考卷不同的学生失去了比较的可能性。

假设高考只有两个省,甲在A省考了600分,乙在B省也考了600分;用百分比可以直接明了的表示这两个600分在各自的省中所有考生所处的位置。但是当样本总量的是AB两省考生总和的时候你就无法比较甲乙的水平高低了 —— 因为考卷不一样(不要和我杠全国卷!)。深层次一点的考虑,百分比也没办法考虑到两个省不同的教育水平和资源,这对于通盘考虑的国家高层做决策是不利的。

好了扯远了,我们进入下一节。

1.3 例子

既然单独写了一个小节来写例子,那肯定要搞得高端一点,有编程来实现。作为一个编程小白我根据网上的一些程序和自己的理解拼拼凑凑的完成的这段代码,请高手勿喷并欢迎指点。

《统计和概率教会我什么?》
《统计和概率教会我什么?》

首先我们用 python 的 numpy 模块随机生成了呈正态分布的 List list1 和 list2 ,样本容量为 100 。 出于编程的原因我就先定死了标准差和平均数不然没法随机生成数字。

然后直接用 pandas 生成了箱线图(不敢相信这么简单!)

《统计和概率教会我什么?》
《统计和概率教会我什么?》

从这张图里面我们就可以清楚的看出了A省和B省的各100名考生的分布情况了:B省的考生上下界较高而A省的发挥更加的平均一点,而因为都采取正态分布的方式生成数字所以可以看到其实中间的大部分人都较为平均的分布在中位数的两边。甚至可以看出都在一个 σ 也就是一个标准差之间。

我们再通过一个值 —— 80 来说明标准分,两个省的考生考卷不一样,所以我们需要用标准分来判定在所有人(200人)每个人在总人数中的位置,假设AB两省各有一人甲和乙考了80分,利用之前图片展示的标准分算法得到甲的标准分为0.417,乙为0.467。所以通过比较,在200人的排列中,甲乙分数虽然相同但是乙的排名要高,在纯粹的统招中乙应该优先录取

这是百分比做不到的排名比较。

这例子其实不是很好,为了兼顾到标准分的说明我采用了正态分布,因此箱线图的演示分布趋势就没有那么容易看懂了了。

2. 不确定的世界 —— 一种摇骰子式的人生观

毫无疑问,世界是不确定的。就算是再精确天气预报都无法准确的预测出每一天的天气。一个成熟的现代人的基本素质就是接受不确定世界这一个事实。并且拥有在不确定世界生活的智慧。这一大节我不会和上一节一样讲太多的定义,公式之类的,我们将目光聚焦在人生观这个大问题上来。

2.1 独立与相关

概率中最基本的概念就是独立和相关。两件事情之间如果互不影响的话就被称为独立,而如果会相互影响的话就被称为相关事件。愚蠢的人总是会把独立事件和相关事件当成一回事。

2.1.1 赌徒谬论

赌徒就是这类愚蠢的人中最典型的一类。

赌徒除了有「我能翻本」这种错觉外,还有一种错觉:「输了这么多把,下一把肯定赢一把大的,All in了!!!」记住我的话:不要赌博,这种人多数都活不长的。我身边是有这种例子的,现在都不知道跑路去了那里。

你要知道,如果假设赌场没有做手脚,那么每一把的俄罗斯轮盘或者老虎机这类的都是独立事件:前一次的结果和后一次是完全不相关的。所以生活中千万不要有这种错觉,要分清楚这件事情时独立的还是相关的。

还有,不要赌博!

2.2.2 条件概率

又到了帮高中老师补课的时间了!

先抄一段定义:

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。若只有两个事件A,B,那么,

《统计和概率教会我什么?》

重要的一点是 P(A|B)和P(B|A)是两码事,具体参见公式定义。还有,事件的概率不得为 0 。

这个概念指导了我们一种很有用的决策方法:「决策树」。下面给出一张图,基本看看就能明白决策树的使用方法了。

《统计和概率教会我什么?》
《统计和概率教会我什么?》

2.2 回归平均

均衡,存在于万物之间。(不好意思,走错片场了!)

2.2.1 随机≠均等出现

有一个小故事:说的是当年 ipod 被顾客投诉称音乐的播放并不随机,逼得 Apple 的工程师修改了算法。但是实际上原来的算法才是真正的随机,而修改过的反而不是。

是个人都知道摇三次骰子完全可能出现 666 的情况,怎么到了播放器就糊涂了呢?清晰的认识到一点,随机不是均等的出现,小概率不代表不可能。

这种现象现在有个专门的名词,叫「黑天鹅」。真碰到了小概率事件也不要惊讶,黑天鹅一直存在。

有句老话叫做瞎猫碰上死耗子。

2.2.2 大数与小数

黑天鹅事件一直存在但千万不要迷信它。你要知道一件事情如果做的足够多次它总会稳定在平均线左右类似于下面这张图,这是一张阻尼震动的图,不是很恰当但是可以说明这种「随着重复次数的增加,越来越趋向于平均数」这一种情况。

《统计和概率教会我什么?》

话题回到标题上来:大数和小数。顾名思义,大数就是很大的数,小数就是很小的数。那么有什么意义呢?有一个很著名的定理叫大数定理:「在随机事件的大量重复出现中,往往呈现几乎必然的规律」后面可以跟着这么一句话:「如果随机事件只有少量,那么往往会呈现出极端的情况」

其实道理很明白,一个骰子投掷 4 次可能产生 3 次都是 6 这种极端的情况,但是 100000000 次呢?出现类似刚才的极端情况几乎就是不可能的了,概率必然无限趋向于 1/6 。

在面对大量重复的概率性事件的情况下我们引入了一个指标叫做「期望」来衡量我们对于这件事情的预期,简单的说期望是概率的平均数。在投掷 100000000 这种情况下我们推测每次投掷出来的点数为3.5,就是把所有可能的结果各自乘上发生的预期概率,就是期望。在这件事情上的期望为3.5。

总结一下上面的话。第一点,在数据偏少的情况下不能妄言任何的「规律」或者「定理」,要不然就是由海量的数字统计出的规律,要不然就是可以通过数学归纳法推理出来的规律才有大的可信程度。第二点,只要时间尺度够长或者重复次数过多,你总能得到你的「期望」。

前提是你不要期望过高。

2.3 不确定世界下的人生哲学

讲到人生道理我总是很激动,可能是小时候鸡汤被灌多了吧。但我这次真不鸡汤,讲一些实实在在的大白话。

2.3.1 站在胜利者的一方 —— 多赌大概率事件

不要觉得自己有多幸运,相信大数 。你只是 1/7400000000 之一,馅饼在你头上的概率实在是有够低的。所以做事情要在大概率的事情上重复的多做。

比如生活,生活中有「五毒俱全」的张学良能活到 100 岁,但是你不应该去赌你是下一个张学良,所以要好好保养自己,健康生活。

再比如学习,总有一些学习不好的人能能够成为大亨,且不论现在正在向知识社会过渡,就算只说概率你成为大亨的概率都太小了,更何况是不学习的大亨。所以要坚持学习,不要老想着给你的生活增加难度。

2.3.2 鸡蛋不要放一个篮子里 —— 分散不确定性

不可能所有事情都有 80% 的成功概率,所以你要知道一条投资界的铁律:鸡蛋不要放在一个篮子里面。放弃不切实际的高回报,选择一个可控的风险区间。然后合理的将资源分配到几个项目上。短期而言可能收益较低,但是降低了不确定性。而在一些情况下,减少了风险在一些时候比什么值得。不要动不动的就 All in,爽则爽已,死的更爽。

聪明的你,选择哪一种?

2.3.3 捕捉「黑天鹅」—— 花少量代价在小概率上

当然我的意思不是一味的求稳,一味的求稳其实意味着你浪费了你很大的一部分资源 —— 不确定性。我一直认为市场的高回报其实是不确定性的变现,所以在不会影响根本的情况下花一点小代价在小概率事件上还是可以接受的。

马云都说了:「梦想还是要有的,万一实现了呢?」

    原文作者:不敢亮真名
    原文地址: https://zhuanlan.zhihu.com/p/42920314
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞