八种抽样技术的科学指南

介绍

首先假定一种场景,我相信这种场景你们都会很熟悉。假如你下载了一个相对较大的数据集,很高兴的开始分析它并建立你的机器学习模型。当你急不可耐的尝试加载数据集时,你的计算机突然丢给你了一行“内存不足”错误,这个时候你会想到什么呢。

这正在不断的发生在我们身上。这是我们在数据科学中面临的最大障碍之一–在受计算限制的计算机上处理大量数据(并不是所有人都拥有像BAT那种级别公司的运算资源能力!)。

那么我们如何克服这个长期存在的问题呢?那么有没有一种方法可以选择数据的子集并进行分析-并且这个子集可以很好地表示整个数据集?

《八种抽样技术的科学指南》

当然有了! 这种方法称为抽样。我相信你在学校/大学期间,甚至在你的职业生涯中,都会遇到很多次这个名词。抽样是获取数据子集并进行分析的好方法。但是,我们是不是应该随机抽取一个数据的子集呢?

我们将在本文中进行讨论这个问题。我们将讨论八种不同类型的抽样技术,以及如果使用这些技术。这是一篇适合初学者的文章,因为有一些有关描述性统计的知识将为你服务。

本文主要介绍6部分:

  1. 什么是采样?
  2. 为什么我们需要抽样?
  3. 抽样步骤
  4. 不同类型的抽样技术
  5. 概率抽样的类型
  6. 非概率抽样的类型

文章目录

什么是采样

让我们从抽样的正式定义开始。

抽样是一种方法,它允许我们从总体(抽样)的一个子集的统计数据中获得关于总体的信息,而不必调查每个个体。。

《八种抽样技术的科学指南》

上图完美地说明了抽样是什么。让我们通过一个例子来更直观地理解这个问题。

我们想要找到A城市中所有成年男性的平均身高。A城市的人口大约为3千万,男性大约为1500万(这只是这个例子的假设,不要在意这些细节!)。你可以想象,要找到城市里所有男性的平均身高几乎是不可能的。

我们不可能覆盖所有的男性,因此我们无法真正分析男性的整体。那么,我们可以做什么呢?我们可以提取多个样本,并计算所选样本中个体的平均身高。

《八种抽样技术的科学指南》

但是,接下来我们又有了另外一个问题–我们应该如何提取样本呢?我们应该随机抽样吗?还是说我们必须去问专家?

假设我们去篮球场,以所有职业篮球运动员的平均身高作为样本。这并不是一个很好的样本,因为一般来说,篮球运动员的身高比普通男性高,而这将使我们对普通男性的身高没有正确的估计。

在随机情况下寻找随机的人,这些情况下我们的样本不会根据身高而产生偏差,这就是一个潜在的解决方案。

为什么我们需要抽样?

我相信你对这个问题有一个很好的直觉。

进行抽样是为了从样本中得出有关群体的结论,它使我们能够通过直接观察群体的一部分(或样本)来确定种群的特征。

  • 与选择总体中的每个项目相比,选择样本所需的时间更少
  • 样本选择是一种经济高效的方法
  • 与对整个人群进行分析相比,对样本进行分析不那么麻烦且更实用

抽样所涉及的步骤

我坚信,将一个概念形象化是将它植入你的脑海中的好方法。因此,下面这是一个以流程图形式逐步进行抽样的分步过程!

《八种抽样技术的科学指南》

让我们进行一个有趣的案例研究,并应用以下步骤执行抽样。相信大家都看过一些美剧,假设,我们现在在一个国家中,而国家中正在进行选举总统。这个时候,你一定已经看到当时的每个新闻频道都在播放的民意调查:

这些结果是通过考虑到全国所有选民或这些选民的一小部分的意见得出的吗?让我们看看它是如何完成的。

第一步

抽样过程的第一阶段是明确界定目标的群体。

因此,为了进行民意调查,调查机构仅考虑18岁以上且有资格在人群中投票的人。

第二步

抽样结构 – 它是一个列表的项目或人组成的群体,其中的样本是抽样。

因此,抽样结构将是所有姓名出现在选区选民名单上的所有人员的名单。

第三步

一般来说,使用概率抽样方法是因为每一张选票都具有同等价值,并且任何人都可以被包括在样本中,而不管其性别、肤色、人种、社区或宗教信仰如何。不同的样本取自全国不同的地区。

第四步

样本容量–指的是样本中所包含的个体或项目的数量,这些个体或项目足以对所需的准确性和精确度来推断总体。

样本量越大,我们对总体的推断就越准确。

在民意调查中,各种机构试图让尽可能多的具有不同背景的人包括在样本中,因为这将有助于预测一个政党可以赢得多少的席位数。

第五步

一旦确定了目标群体,抽样框架,抽样技术和样本数量,下一步就是从样本中收集数据

在民意调查中,机构通常会向人们提出问题,例如他们要投票给哪个政党或前政党做了什么工作,等等。

根据答案,各机构试图解释一个选区哄的选民投票给谁,以及一个政党要赢得多少席位。这是非常令人兴奋的工作,对吧?

不同类型的采样技术

这是另一张图片说明!这一部分我们将讨论可以使用的不同类型的抽样技术:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0On56gLU-1570772682128)(.\图片\不同技术.png)]

  • 概率抽样: 在概率抽样中,总体的每个元素被选中的概率都相等。概率抽样为我们提供了创建一个真正代表总体的样本的最好机会
  • 非概率采样:在非概率采样中,并非所有的元素都有相同被选中的机会。因此,有一个非常显著的风险,也就是最终会导致我们得到一个不具有代表性的样本,而且它不能产生可以推广的结果。

例如,假设我们的整体由20个人组成。每个人的编号从1到20,并用特定的颜色(红色,蓝色,绿色或黄色)表示。每个人在都有二十分之一的概率在概率抽样中被选中。

对于非概率采样,这些概率并不是相等的。某一个人可能比其他人更有机会被选中。现在,我们对这两种抽样类型有了一个概念,让我们深入了解每种抽样类型,并了解每个部分下的不同抽样类型。

概率抽样的类型

简单随机抽样

这是一种抽样技术,你肯定在某个时刻遇到过。在这里,每个人都完全是被随机选中的,每个人都有平等的机会被选上。

简单的随机采样可以减少选择偏差。

《八种抽样技术的科学指南》

该技术的一大优点是它是最直接的概率抽样方法。但它带有一个警告-它可能无法选择出足够多的具有我们感兴趣特征的个体。蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。

系统抽样

在这种类型的抽样中,首先随机选择第一个个体,然后使用固定的“抽样间隔”选择其他个体。让我们用一个简单的例子来理解这一点。

假设总体大小是x,样本大小是n,那么下一个选择的个体距离第一个个体有x/n个间隔。我们可以用同样的方法选择其余的部分。

《八种抽样技术的科学指南》

假设,我们从第3个人开始,我们希望样本容量是5。因此,我们要选择的下一个个体的间隔将是(20/5)= 4从第三个人,即7(3+4),以此类推。

3,3 + 4 = 7,7 + 4 = 11,11 + 4 = 15,15 + 4 = 19 = 3,7,11,15,19

《八种抽样技术的科学指南》

系统抽样比简单的随机抽样更方便。然而,如果我们从人群中选择项目时存在一种潜在的模式,这也可能导致偏见(尽管发生这种情况的几率相当低)。

分层抽样

在这种类型的抽样中,我们根据性别,类别等不同特征将总体分为子组(称为阶层)。然后,从这些子组中选择样本:

《八种抽样技术的科学指南》
在这里,我们首先根据红色、黄色、绿色和蓝色的不同颜色将我们的种群划分为子组。然后,从每一种颜色中,根据他们在人口中的比例,我们选择一个个体。

当我们想要表示总体的所有子组时,我们使用这种类型的抽样。但是,分层抽样需要适当了解总体的特征。

整群抽样

在聚类样本中,我们使用总体的子组作为抽样单位,而不是个体。该群体被分为子群体,称为集群,随机选择一个完整的集群纳入研究:

《八种抽样技术的科学指南》

在上面的示例中,我们将总体分为5个类。每个类由4个个体组成,我们在样本中选取了第4个类。我们可以根据样本的大小觉得每个类包括的个体,或者更多的类。

当我们关注特定区域或群体时,将使用这种类型的抽样。

非概率抽样的类型

简单抽样

这可能是最简单的抽样方法,因为个人的选择是基于他们的可用性和参与意愿。

这里,假设编号为4,7,12,15和20的个体想要成为样本的一部分,因此,我们将把它们包含在样本中。

《八种抽样技术的科学指南》

简单抽样容易产生显著的偏见,因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

配额抽样

在这种抽样中,我们根据预先确定的总体特征来选择。考虑到我们必须为我们的样本选择一个数字是4的倍数的个体:

《八种抽样技术的科学指南》

因此,编号为4、8、12、16和20的个体已经预留给我们的样本了。

在配额抽样中,所选择的样本可能不是未被考虑的总体特征的最佳表示。

判断抽样

判断抽样也称为选择性采样。在选择要求的参加者时,取决于专家的判断。

《八种抽样技术的科学指南》

假设,我们的专家认为编号为1、7、10、15和19的人应该考虑作为我们的样本,因为他们可能帮助我们更好地推断总体。可以想象,配额抽样也容易受到专家的偏见,不一定具有代表性。

雪球采样

我非常喜欢这种采样技术。**请现有人员提出他们所认识的其他人员,以便样本的大小像滚雪球一样增加。**当抽样样本难以识别时,这种抽样方法很有效。

《八种抽样技术的科学指南》
这里,我们随机选择了第一个人作为样本,然后他/她推荐了第6个人,第6个人推荐了第11个人,以此类推。

1-> 6-> 11-> 14-> 19

在滚雪球式的抽样中,有很大的选择偏差风险,因为被引用的个体将与推荐他们的人有共同的特征。

总结

以上就是八种抽样技术的介绍和使用方法,总体可以分为概率抽样和非概率抽样,大家可以根据自己的需求,在数据比较大需要抽样的时候使用抽样来解决数据的处理问题,当然具体使用什么样的方法,还是需要根据自己的数据来选择合适的方法。

原文链接:https://www.analyticsvidhya.com/blog/2019/09/data-scientists-guide-8-types-of-sampling-techniques/

    原文作者:阿丕 CDA
    原文地址: https://blog.csdn.net/weixin_43751243/article/details/102499674
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞