大数据的三大理念解析

维克托·迈尔·舍恩伯格同学曾在他的作品《大数据时代》中总结了相对于传统的思维模式,大数据时代需要做出的三个转变,也可以说是大数据思维模式的三个理念。这里也不准备标新立异了,还是沿着这个思路。不过,对于这种观点,我们还是需要批判的看待,既不能像网上某些人的评论那样将其批判的一无是处,也不能不假思索的全盘接受。用马克思主义哲学的说法,只有使用去粗取精、去伪存真的方式,取其精华,弃其糟粕,才能真正了解其精髓,从而实现继承和发扬。

一、大数据的理念之:用全量代替样本

1841年埃德加·爱伦·坡发表了文学史上的第一部侦探小说《莫格街谋杀案》,尽管这部小说的解答有些欠抽,但不可否认,它开创了侦探小说的一种模式——“密室”,而这种模式被后来人所追随,以至于似乎没有写过这种类型小说的都不算是侦探小说作家。所谓的“密室”,就是在一个封闭的空间内犯下的凶案,终极目标就是解答出凶手的犯案方式以及如何从密室中逃脱。在一代又一代的侦探小说家的努力下,密室的难度越来越大,从正常人无法进入到所有人类都无法进入,直至正常情况下所有生物都无法进入。然而即便这样,如果严格来说的话,绝对的密室是不存在的,它肯定会有空隙,就算看起来密不透风也从微观的角度找到某些空隙。既然不可能达到绝对的封闭,只能使用相对的概念,对于正常人无法进入的空间都属于密室,否则整个侦探小说界就少了一个很重要的组成部分。

刚接触化学课的时候,接触到了纯净物和混合物的概念,与此同时也提到了,绝对的纯净物是不存在的,即使是再精确的提纯。于是,对于一种物质,只要没有提到存在杂质,默认按照纯净物来看待,否则就不仅仅是几道考试题的问题了,可能整个化学学科的研究都没法开展下去了。例如两种物质发生反应,如果按照实际情况都当作混合物看待,不断的纠结于各种杂质的问题,那就偏离了真正的研究方向。

举了上面两个貌似不相干的例子,想表达的观点就是,和多、少这类的相对概念一样,实际上全也是一个相对的概念,绝对的全也是不存在的。之所以这么说,主要有两方面的原因:

首先,当数据量超过一个范围之后,取得全部信息会很复杂,以至于可能根本是无法完成的任务。如果要获取一个学校所有学生的某个信息,这个很容易,只需要将全校的学生聚集起来一起获取,或者以班级为单位单独获取之后再进行汇总,因为一个学校不管有多大,学生人数都不会太大。而如果要获取全市所有人的某个信息呢,这似乎就是不可能的了:如果在大街上随机询问,对于那些不出门的宅男、宅女们的信息就没法获取;如果挨家挨户进行询问,对于那种经常不在家的就不太容易能遇到,而且那种无家可归的流浪汉的信息也没有办法获取;如果通过电话询问,也肯定有因为某种原因无非接电话的人,或者看到是陌生号码就是不接的;也许互联网可以解决这种问题,但肯定有那种一心只跳广场舞、对网络世界一窍不通的大爷、大妈们,就算是网络一族,也有可能因为不关注或者不感兴趣而对此完全无视。就算可以获取全市所有人的信息,那推广到全省、全国呢。要知道,所谓的所有人,包括那种没有户籍的“黑户”,以及那种隐姓埋名的在逃犯等人群。

就算这个问题可以随着技术的进步得以解决,那么接下来的问题就是在理论上都无法解决的,那就是有些属性是连续的,比如时间、空间的概念。就像无法穷尽(0,1)之间的所有有理数一样,取某个时间范围内所有时间点的某个信息,或者某个空间区域中所有位置的某个信息,从理论上讲都是不可能的,因为所有的数据都只能获取离散的信息点。

综上,获取全部数据,在理论上和实际上都是不可能实现的,那么就只能变通一下。对于第一种情况,可以缩小调查范围,只关注某种类型的信息,毕竟对于另外类型的信息有可能根本没有实际意义,比如电商们不会关注那些从来不网购的人们是怎么想的;同时默认,只要获取的信息量超过总量的一个比例,就认为它是全部数据。而对于第二种情况,可以通过细分相应属性来实现,比如在某个时间范围内每隔0.1秒获取一次信息,就可以认为是全部的时间点,毕竟这基本上是人类的最快反应速度,要知道,百米比赛中发令枪响之后0.1秒之内起跑的也属于抢跑。

当然,随着技术的发展,在数据全面这一点上,会越来越趋近这个目标。尽管离这个目标还有一定的距离,但现在已经默认我们掌握了全部的数据。之所以可以这样假设,是因为所谓的“大数据”,更多的是一种思想,通过这种思想可以得到之前无法得到的结论。

之所以这么说,是因为“大数据”思维和传统的思维有本质的区别。

记得当年学习关于抽样检验相关知识的时候,举过的一个例子,验证一批灯泡的使用寿命,需要随机抽取一定数量的灯泡,通过这些灯泡的测试结果来验证这一批灯泡的合格率大约是多少。由于灯泡在测试完之后就没法再使用了,所以无法采取全量的方式,因为如果那样做的话,最终得到的会是一个绝对正确的结论和一堆废品。

由于上述原因,只能通过抽样的方式进行这样的检验,于是形成了一套抽样检验的理论,包括如果进行随机抽样,以及形成了期望、方差等统计学概念,最终形成了概率论与数理统计这样的学科。

接下来的问题就是,对于那些没被抽样检测的灯泡,它的使用寿命信息就没有实际意义了吗?显然不是。如果通过某种方式可以获取了某工厂生产的所有使用过的灯泡的寿命(以目前的技术,这种信息应该是可以获取的),就可以得到一些可能更有用的信息,比如可以通过找到哪些因素可以让灯泡的使用寿命更长,提高制作工艺从而提升整体的产品质量。当然,这仅仅是最容易想到的,实际上能够获取的信息会更多。

而这种思维方式就是“大数据”的思维方式,它是处理那些已经完成历史使命的数据,在这种海量的历史数据中找出规律,从而对未来进行预测;或者找到相关的影响因素,从而改善方案以达到利益最大化。

数据,和普通的商品不同,并不会随着它的使用而消失;只要有足够的存储空间存放,它便会一直保留着。而“大数据”思维,恰恰是在处理这种已经使用过的数据,并从中获取到想要的信息。也许对于一次交易,只要结算完毕,交易信息就完成了历史使命;对于一次实时检测,只要得到结果并判断是否需要人工干预,检测信息就完成了历史使命;对于一次网络检索,只要找到需要的信息,查询结果信息就完成了历史使命……然而,只要把这些已经完成历史使命的数据都汇集起来,也许会得到意想不到的结果。因为随着数量的累积,它会慢慢的诱发质变。

中国古人有一句谚语:“熟读唐诗三百首,不会作诗也会吟。”西方侦探小说里的人物福尔摩斯也曾经曰过:“你掌握一百个案子的来龙去脉,第一百零一个案子一定不会在你的算计之外。”这两个貌似风马牛不相及的言论,恰恰反映了同一个理论,就是上学的时候物理课上经常讲的“量变到质变”的理论,只要量变达到了一定程度,就会带来质的飞跃。

其实分析一下,道理是一样的:

对于唐诗,只要被创造出来,抒发了诗人的情感,它就已经完成了历史使命。而通过熟读前人的诗词,只要达到了一定的数量(肯定是不止三百首了),以至于几乎熟读过所有前人的诗词,就能够分析出怎样才能写好一首诗,从而创造出新的诗篇来。

对于案件,只要经过调查分析,找到凶手及相关信息,最终结案,它就已经完成了历史使命。而通过研究前人侦破的案件,只要达到了一定的数量(肯定是不止一百个了),以至于几乎研究过所有案件的所有相关信息,就能够获得破案的思路和方法,从而当遇到新的案件时,就可以按照正确的侦破方向进行。

当然,上面的言论有人为拔高的成分,不能这些言论都算作大数据的思维方式,然而所谓的“大数据”思维方式肯定不是凭空产生的,而它的来源其实就是这种“量变到质变”的理论。毕竟,在一定的范围内,没有比全部数据的量更大的数据集了。

二、大数据的理念之:兼容不精确

自然博物馆,一游客问馆里的讲解员某个古生物化石距今有多少年,讲解员答曰:“五百万零二十年。”游客不解,问这二十年是哪儿来的,讲解员说:“我刚参加工作的时候,这个古生物化石距今有五百万年;我现在工作了二十年,所以,这个古生物化石距今有五百万零二十年。”当然,这仅仅是个段子。但从另一方面也说明了,当数量超过了一定的范围之后,其精确性已经不重要了。

然而,什么属于精确性呢?

上学的时候应该都听老师讲过这样的故事,说美国挑战者号出现故障即将坠毁的时候,给航天员对自己亲人做最后嘱托的机会。其中一个航天员对自己的儿子说,挑战者号之所以出现故障,就是因为错了一个小数点。当然,正常情况下这个时候老师都会用富含感情的话语表达,就那么一个小小的错误就导致了那么大的灾难,所以在以后的学习生活中,要认真、仔细、严谨……

先不去纠结这个故事是否是中国教育界的原创,仔细想一下,小数点的错误真的是一个小小的错误吗?

小数点本身是不会出错的,没有人会把它写成别的符号。这里说的小数点错误,只有一种可能,就是小数点的位置有误,包括该有小数点的地方没加小数点,以及不该有小数点的地方却加上了小数点,这意味着,整个的数量级都是错误的。而航天相关的计算中,很少使用加减法,更多的是乘、除,以及乘方等运算,这样会导致最终的结果也会出现数量级的错误,而这种错误,与正确结果至少相差十倍。这样看来,这个小数点还能算作小问题吗?

而与此同时,在高中物理课上,关于万有引力相关的部分(包括一些航天相关的),很多情况下的计算结果并不要求十分精确,只要数量级是正确的、并且前面的数值在某个范围内,就算正确,甚至高考的时候都是这样。也就是说,在这种特殊的领域,对于小数点后几位的值,是没必要十分精确的,尽管它的绝对数值也许会很大(如果数量级很大的话,小数点之后很多位所代表的实际数值也会是很大的)。

就像这部分开头的段子那样,对于人来说,二十年是一个很大的数量,人生能有几个二十年呢;但对于远古时期的化石来说,甚至两百年、两千年都是可以被忽略不计的。同样,对于地球上生活的人类来说,一公里是一个比较长的距离,但是在茫茫宇宙,它也是可以被忽略不计的部分。我们会用几万年前、几百万年前或者几亿年前来记录古生物所处的时期,会用光年作为单位去衡量宇宙中的距离,尽管这样的数值是不需要精确到具体多少年或者具体多少公里,但如果年限的数量级、光年前面的整数位数值都是错误的,那这样的数据也就是失去了它的意义。

这就是大数据所谓的不要求精确性,它仅仅是不去纠结于那些被忽略不计的小数点后多少位的具体值;然而,它并不意味着准确性也不做要求,如果整数位、甚至数量级本身就是错误的,那得出的结论就会与实际情况相差很远,也就失去了它的意义和价值。

当然,之所以可以不要求精确性,也是因为“大数据”处理的是历史数据。对于一些正在使用的数据来说,是需要精确性的:银行账户上的金额,以及支付宝、余额宝相关的交易金额,这些都是需要完全精确的,以保证社会的公平;某些观测数据也是需要精确性的,也许小数点后的某一位的区别,都可能得到不同的结果;甚至对于一些医疗相关的数据,也许几毫克的差别都会影响着一个生命是否会消逝;更别说还有其他意义更加重大的数据了。然而,等到“大数据”进行处理的时候,它实际上已经完成了历史使命,那么即使它不是十分精确,至少不会造成严重的后果。

而事实上,当数据量达到一定程度的时候,数据本身就无法保证其准确性了。比如,当每小时只测量一次的时候,可以认认真真、仔仔细细的进行测量,这样的数据可以说是准确的;但如果每几分钟就要测一次呢,就无法保证每一次都非常认真,就不可能十分精确;当每几秒钟就需要测一次的话,人工就无法实现了,必须借助工具,数据的准确程度就与相应的工具息息相关;而如果一秒中要测量多次呢,也许再精妙的工具都无法保证每一条数据都是非常精确的。

各种理论直接往往都是相通的,量子物理学里有一个“测不准原理”,而在大数据领域也有类似的原理,即在测量的密度增大之后,测量值的不确定性就会增加。当然,这并不能阻碍大数据的使用,因为这样的数据之间是可以进行相互印证的。

一般情况下,“大数据”是不会只使用一种数据来源的,它会将多个数据来源进行综合分析,从而实现各数据信息之间的相互印证。而这种互相印证的过程,也是去粗取精、去伪存真的过程,这样一来利用不精确的数据源,反而能够获得更加准确的结论。

不过,这导致了数据的结构化程度降低了。对于传统技术而言,一般处理的都是结构化的数据,即每条记录都有同样的结构,而且几乎包含了所有指标的信息。然而,“大数据”所处理的数据,还包含半结构化或者非结构化的,甚至是图片、音频、视频等非文本的。这也就是相对于传统技术而言,大数据技术的一个飞跃性的提升。

也许在面对这种所谓的“大数据”的情形,很类似一名警官面对一桩复杂的案件。在他的面前有各种线索:有可能让人的消化道不舒服的死者的状态,有现场的情况(包括实地观测及相关的照片信息),有与死者相关的人物信息及与死者的关系情况(主要是利益关系以及是否彼此之间有矛盾),有目击者或者相关人员的证词,有通过法医学测验得出的各种结论,甚至包括现场周围监控录像的内容……最终的目的就是将这些信息整合成一个完整的证据链,发现以及证明谁是凶手。类似的,这些线索中,有跟案件紧密联系的,也有跟本案毫无关系的干扰信息,也有因为种种原因导致的不完全准确甚至完全不准确的信息,甚至也有凶手为了干扰办案人员故意给出的假线索。当处理这些浩如烟海的线索的时候,不仅需要通过单个线索获得相应的结论,还需要将各线索的得出的结论进行综合分析、互相印证,这样才能最终得到正确的结论。

其实人生也一样,一方面,生活本身就是繁杂的(写这篇文章的方式也尽可能符合这一点,即尽可能包罗万象),“结构化”的只是其中的一小部分,更多的是“非结构化”的。

哪怕是仅仅作为一个“码农”,也是一样的:如果只了解所使用的技术,哪怕研究得再深入,那也是一个低层次的“码农”;想要成为一名高层次的“码农”,还需要了解一些看起来跟编码没有半毛钱关系的知识。

我们都知道爱因斯坦作为一名科学家所获得的成绩,而与此同时,他还是一个优秀的小提琴手,在音乐上也有很深的造诣。很难想象,如果爱因斯坦的脑子里只有一个个冰冷的物理公式,他是否还能做出这么大的成绩。

随着信息时代的到来,我们已经不需要陈景润式的人物了,更需要的是对多个领域都有所了解的人才,或者说是“一专多能”式的人才,这样才能整合各领域的信息,在更高的层面上有所建树。

另一方面,生活本身也是不完美的。当然,我们需要有追求完美的精神;但是,如果刻意的追求完美,一味的纠结于各种细节,反而会“因为一片树叶而失去了整个森林”。同样的,精确性是我们的努力的目标,但我们应该清楚,绝对的精确是不存在的。

三、大数据的理念之:更加关注相关规律

在这一点上,我们的维克托同学给出了一个“标新立异”的观点,即只关注关联关系,不关注因果关系。这也许是很多人,包括翻译那部作品的那位同学,坚决持反对态度的一个观点。然而,是不是我们没有理解作者的意图呢?

经过了八年的豌豆实验,孟德尔先生发现了遗传学的两大定律:分离定律和自由组合定律。而此时他发现的仅仅是关联关系,即对于某一类相对性状,存在显性和隐性,如果将两个不同性状的物种进行杂交,其后代呈现显性性状;而如果将这些呈现显性性状的第二代物种彼此之间进行杂交,其第三代中所呈现的显性性状与隐性性状的比例约为3:1。而至于为什么会是这样,以当时的情况,是无法解释的。

在此之后,科学家们在细胞核内发现的染色体,并在染色体中发现的遗传基因,同时也发现了染色体是成对出现的,以及在细胞的有丝分裂和减数分裂时染色体的状态,甚至发现了遗传基因的载体DNA的双螺旋结构。在此基础上提出的显性基因和隐性基因的理论,从而解释了孟德尔的遗传定律。

然而,这就是根本原因吗?显然不是,至少为什么第二代会呈现出显性基因的性状,这还是一个未解之谜。要想知道这个的原因,需要了解关于DNA的更多的信息,甚至在此之外还有更多需要研究的地方。

而这里的第一部分,我们可以理解成另外一个大数据分析的步骤,通过对海量的数据进行分析处理之后得到了一个关联关系。然后呢,就木有然后了。如果想要知道因果关系,即这个关联关系的相关原理,需要从理论高度进行研究,或者通过其他途径得到其本质原因,而大数据本身对此是无能为力的。

其实很多的科学研究的过程都是这样:先通过一些实验数据得到一个结论或者假说(即上面提到的关联关系),再通过理论推导或者更高层次的研究,了解其本质(即因果关系)。而大数据所扮演的仅仅是先前的实验过程而已。

故曰,之所以说大数据不关注因果关系,是因为它本身是无法得到因果关系的,并不是说因果关系不重要。

由于因果关系需要进行严谨的分析,甚至需要一点点的灵感,它并不是在短时间内能够得到的。而经过大数据分析,已经基本上可以保证关联关系的准确性,而且其本身还属于“仅供参考”的范畴,直接使用得到的结论,至少结果不会太糟(除非分析方法严重有误)。在追求效率的今天,这种“先斩后奏”还是值得尝试的。

况且,如果没有通过大数据得到的关联关系,对于相关因果关系的探求就没有了方向。所以说,大数据仅仅是第一步,唯一的区别就是,在没有得到因果关系之前,相应的结论就可以放心大胆的使用;而对于相应的因果关系,那是给想要获得诺贝尔奖的人们准备的。

 

推荐阅读文章

大数据时代需要了解的六件事

大数据框架hadoop十大误解

年薪30K的大数据开发工程师的工作经验总结?

大数据框架hadoop我们遇见过的问题

    原文作者:chengxvsyu
    原文地址: https://blog.csdn.net/chengxvsyu/article/details/91630583
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞