分析历届世界杯进球数据,预测2018世界杯小组赛进球概率

通过一些正规渠道,我拿到了历届(1930-2014)世界杯小组赛+决赛的进球比分数据,随便分析了一下还挺好玩。

06、10年球员们发挥不好,总进球量少于正常水平,几乎回到50年前水平;

20届世界杯总进球2500个,巴西贡献了近1/10,总进球前十名贡献了一半;

巴西进攻能力最强,英格兰防守最强

计算了小组赛各场的比分概率

所谓正规渠道其实就是百度文库下载的。进球数据大家可以后台回复“世界杯”获得,原始数据和计算过程我都留下了。

有几个问题需要解释一下:

1、因为年代久远,好多国家已经改了名字,比如苏联、西德,考虑到俄罗斯和苏联国家实力的不对等,我并没有把他们合并成一个国家。过去的就让他过去吧。

2、世界杯决赛是没有平局的,最终比分我用了点球大战的分数,毕竟点球也是实力。

3、1938年后到1950年,因为二战,世界杯连续12年停办。愿世界不再有战争。

下面是正文

历届进球数走势

我拿到的数据包含年份+小组赛/决赛比赛双方+比分,经过简单的处理,将各年度的进球总数拉个折线图,得到下面:

《分析历届世界杯进球数据,预测2018世界杯小组赛进球概率》

走势图很清楚的,球员们的身体素质和技术水平在提高,除了2006和2010年那两年有些低落外,整体进球数量是在稳步提升。

我不懂球,不知道为什么1954年和1958年进球这么多,难道是因为刚结束二战,球员身体素质高?还是因为1954年改了赛制的原因?

另外,1958年中国队第一次参加世界杯,预选赛中被印尼打回来了……

20届进球2500粒,巴西占了1/10

统计胜负双方总进球数,1930-2014年内,累计进球2500粒(包括点球大战),其中巴西进球232粒,接近总数的1/10,进球前十的国家总进球1222粒,占到总数的近一半。

《分析历届世界杯进球数据,预测2018世界杯小组赛进球概率》

巴西虽然进球最多,但是失球同样是最多的,毕竟几乎每届他都能踢到最后。与进球相对的,球队对手的进球数即为该球队的失球数,统计一下失球数TOP10的球队,巴西依然第一:

《分析历届世界杯进球数据,预测2018世界杯小组赛进球概率》

加一些数学模型进来

单纯的走势、分布这些数据没啥意思,我决定加一些高端的数学模型进来,这样才能对得起高大上的球迷们。

既然有历届的进球数据,不考虑国家主权变动、球员身体素质等因素,我们可以通过数据计算,得到各球队的进攻实力和防守实力。

这么多年世界杯下来,一共有86支球队,全部分析太麻烦了,我们只分析2018年世界杯进入小组赛的32支球队好了。PS:冰岛和巴拿马今年第一次进世界杯,往届没有数据,我给了他们平均数。

进攻能力/防守能力的概念

很简单,进球越多则进攻实力越强。我们把所有球队的平均进球数作为基准,那么A球队的平均进球数÷所有球队的平均进球数则代表了该球队的进攻实力。这个指数越大说明进攻能力越强。同样,失球数表示防守能力,指数越小防守能力越强。

本届世界杯小组赛32个球队的进攻能力和防守能力排名:

> 进攻能力

《分析历届世界杯进球数据,预测2018世界杯小组赛进球概率》 图片好长滑动看吧

前五名基本上没有争议,我一个不看球的人都认识他们。但是排在第六名的丹麦,为啥这么强呢?

回溯源数据我发现,丹麦在1986年小组赛中6-1战胜了乌拉圭,2002年2-0战胜了法国,这两个国家都是蛮强的,因为乌拉圭世界杯进小组赛比较多,1930年首届世界杯4-2虐阿根廷,1950年2-2平西班牙,2-1虐巴西,1954年4-2虐英格兰,直到2014年还分别以2-1、1-0的战绩干过英格兰和意大利。

毕竟只是数据,一战得名太容易左右排名。

> 防守能力

《分析历届世界杯进球数据,预测2018世界杯小组赛进球概率》 图片好长滑动看吧

防守能力的榜单有点扯哈,我也不优化了,直接讲一下为什么出现这种排名的原因吧。

塞尔维亚就2010年进了一次世界杯,踢了三场球,输了两场(澳大利亚2-1,加纳1-0),然后赢了德国(1-0),本身平均失球数就低,还防住了德国,实力一下子就上去了。

克罗地亚我不认识,但是看历届的比分还是很硬的,赢8场进了18个球,对手只进了5个;输8场对手一共进了12个球,防的可是巴西、阿根廷、法国!

> 泊松分布

这个概念就比较高级了,其实很简单。举个例子:

举个例子,假设你在公交站等车,虽然站牌上写着公交车平均5分钟一班,但你如果在公交站等上5分钟,你有可能等来1辆、也有可能等来3辆,当然如果运气不好,1辆公交都没等来也是常事。

这里来1辆还是3辆还是1辆也没来的概率是可以计算出来的,这个计算方法就叫做泊松分布。它的公式长这样:

《分析历届世界杯进球数据,预测2018世界杯小组赛进球概率》

这个公式里面有个参数λ,它是球队在某次比赛中能进几个球。这个我用了A的进攻能力×B的防守能力×32强平均进球数。具体为什么这么算,可以看下一条推送,那篇文章有详细的解释。

其他就不讲了,直接上结果。有兴趣算一遍的可以下载原数据(后台回复“世界杯”)。

这种世界级比赛进球数都在0-4之间,超过4个球的很少。

《分析历届世界杯进球数据,预测2018世界杯小组赛进球概率》

我们就只计算0-4个球的概率,计算结果是这样的:

《分析历届世界杯进球数据,预测2018世界杯小组赛进球概率》 图看不清放大试试

用上面的数据,理论上你就可以算出本届世界杯小组赛每种比分的概率了,俩球队的进球概率相乘即可。

收工。

PS,我不懂球,很多计算方法参考了公众号 城南往事 的文章,我把它转载在下一条了,感兴趣可以去看一看。

    原文作者:数据结构
    原文地址: https://www.jianshu.com/p/9829829253f2
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞