大数据是什么

最近这段时间有很多人问我,大数据到底是什么。当然实际上问题没有那么直接。更多的问题是,飞总啊你看我亲戚家的那个企业是不是可以上个大数据啊,用起来就能发财了。或者说这个大数据的新开源项目是不是对我提高这个那个有帮助啊。诸如此类的问题问多了,我也就在问我自己,写大数据系列写到现在了,大数据到底是个什么鬼。

这就让我想到了很多年前看到的Dan Ariely关于大数据的名言:

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.

这位普度大学的叫兽主要是做行为经济学研究的。但是聪明人到哪里都一样,这段大数据的名言到今天来看依然是非常的精彩。

今天如果我们以大数据作为关键词去搜索的话,那么我们可以搜出来的东西不但很多而且很精彩。各行各业的砖家叫兽们有着各种各样的精彩言论。各种白皮书红皮书黑皮书绿皮书满天飞。无论是做技术的做投资的做商务的搞经济的乃至做地震的搞生物的开发石油的开车的,但凡你能想象得到的领域,都可以挂上大数据。死数据活数据各种术语满天飞。这是一个大数据的年代,虽然有点过气了。这是一个没有大数据就没有这个世界的年代。有些文字读起来是颇有激扬文字粪土旧时代的感觉。但是你要真的问问这些专家们叫兽们,还有组团卖产品的各大公司们,说法五花八门,谁也没搞明白到底什么是大数据。于是乎,Dan Ariely的名言拿到今天的各行各业,颇有一番照妖镜的味道。

我记得当华为准备进军云计算市场的时候,2015年的宣传里面是没有大数据的,只有云计算,所谓大数据相关的服务只是作为云计算的各种服务之一来提供的。而到了今天再看华为的宣传,大数据已经是作为一个独立的东西提出来了。这从业务逻辑结构来看,华为显然从2015年到2017年完成了一个从大数据等于云计算的一部分到大数据不等于云计算的转变。至于这种转变背后说明了什么,作为一个大数据市场上的后来者的这番变化,我们这些吃瓜群众们可以好好想一下。

我们在大数据甚嚣尘上,乃至于现在人工智能甚嚣尘上的时候,到底能够从这里面看到点什么。我们需要注意的是,在历史上从来都不缺乏新概念。互联网行业也从来不缺乏新概念,比如网格计算,比如web service。然而技术其实就那么多,新概念里面到底是在玩旧酒装进新瓶的玩意,还是真的推陈出新是每个人应该具备鉴别能力的地方。所谓大数据和聚集在大数据这个壳下面的林林总总的东西,有些是新瓶子里装了旧酒,有些是真玩意。到底哪些是旧货哪些是新东西就得看各位的鉴别能力了。至于为什么会这样,换个壳卖东西,来钱比较快。人都是喜新厌旧的啊。

如果我们拿大数据的鼻祖谷歌举个例子,先有三驾马车,后有Spanner大杀器。前者是指Google File System, MapReduce, BigTable. 作为Google来说,它需要这些技术,因为它要面对的是整个互联网的数据。现存的技术当然没办法来满足。但是作为用户来说,其实我管你是GFS, HDFS还是其他什么名字,说白了就是个文件系统。文件系统能干吗,只能存文件呗。存了文件以后呢?查询处理,这个套路从单机时代就开始了。没有办法处理,那就发明了MapReduce啊。MapReduce像汇编一样又慢又难用,自然有人在上面继续构建抽象的好用的东西。说这个的意思,其实是我们应该考虑是从用户角度看问题还是从技术人员角度看问题。比如说我就遇到过有人问我手里一把数据怎么处理,是不是应该搞个大数据的东西,我跑去一看,乖乖,就10多个GB的数据。用个postgress或者mysql也就够对付了。真要上了Hadoop再用HIVE,那只能是脑抽了。

再举个例子HIVE,不要看这东西名字多炫酷,facebook说过他们想做的是什么:SQL on Hadoop。SQL这个东西我想是个人都明白。那么不管技术实现是什么,本质上来说那还是个SQL。至于SQL能干吗,不需要叫的多高大上,大家都明白。

我们有了NoSQL,最开始是Key-Value Store。其实这个名字已经比较糊涂了,不妨直接用它最基本的名字:Map. Map这个数据结构大家都懂。所以所谓的NoSQL最初来干嘛大家应该也就明白了。至于背后实现的技术,那对很多人来说其实是细节。这个东西是用来解决一类问题的。而这类问题是不是必须挂在大数据下面,就得问大数据到底是什么了?NoSQL很快就变成了杂种。各种各样的db,没有实现SQL的,都说自己是NoSQL。因为大家都知道沾上这个名字的光可以更有效的传播自己,来钱更快。

现在又有人发明了NewSQL,用来区别NoSQL和以前的SQL,目的是什么呢?标新立异呗。所谓NewSQL就是指Spanner的copycat们给自己取的新名词。说白了对用户来说那不还是个SQL产品吗?new能new到哪里去。这世界上如果说需要那个规模的企业,估计都能养起一只队伍来维护新的开源产品。如果不需要那个规模的,跑个mysql Postgress的也不一定差到哪里去。至于人傻钱多的所谓500强国企,上个Oracle或者SQL Server又或者Hana也挺好的。虽然人傻钱多,贵是贵了点,其实真的没啥差别。Google最近把Spanner开出来作为大杀器来作为云服务的一部分,而且价格贼贵,我想多半也是想借助NewSQL这个名头来多捞点钱。

说了这么多,其实只是想说一个问题,在概念满天飞的今天,什么东西都挂到了BigData下面。但是BigData到底是什么东西,这么定义,要解决什么问题,范围在哪里,其实是没有一个定数的。至于各种专家教授从经济学行为学心理学各行各业各种学来解释大数据这个东西多么的伟大有多大影响的话,说白了都是然并卵。我并不排除有很多睿智的人,写了很多真知灼见。但是我觉得最重要的一点,作为使用者和了解大数据的人,最好尘归尘土归土的把东西都拆开来,看看每项技术是用来具体解决什么问题的。这个技术的创新到底是在内部实现上,还是在用户接口上。很多时候,作为用户,SQL还是那个SQL,不管是HIVE还是Postgree还是Oracle。数据仓库还是那个数据仓库,不管是Business Object还是麒麟。

古话说的好,浑水摸鱼,把水搅浑了,一锅粥的端上来叫大数据套餐,才能更好的收割各位的口袋。

    原文作者:飞总
    原文地址: https://zhuanlan.zhihu.com/p/25404894
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞