Coursera数据工程师董飞:硅谷大数据的过去与将来

非贸易转载请说明作译者、出处,并保存本文的原始链接:http://www.ituring.com.cn/article/177529

董飞,Coursera数据工程师。曾前后在创业公司酷迅,百度基础架构组,Amazon 云盘算部门,LinkedIn担负高级工程师,担任垂直搜刮,百度云盘算平台研发和广告体系的架构。董飞本科毕业于南开大学,硕士毕业于杜克大学盘算机系。他在知乎上分享过多个引发强烈反响的问答,个中包括《哪些硅谷创业公司能给造访者留下深刻印象》《美国大数据工程师口试攻略》《Coursera 上有哪些课程值得引荐》等。

《Coursera数据工程师董飞:硅谷大数据的过去与将来》

问:硅谷最火的高科技创业公司都有哪些?

在硅谷人人异常热忱地谈创业谈时机,我也经由过程自身的一些视察和积聚,看到了不少近来几年涌现的热点创业公司。这个是华尔街网站的环球创业公司融资范围评比。它原本的题目是billion startup club,不到一年的时刻,住手到2015年1月17日,如今的排名和范围已发作了很大的变化。

《Coursera数据工程师董飞:硅谷大数据的过去与将来》

  • 起首,估值在10 Billlon的到达了7家,而一年前一家都没有。
  • 第二、第一名是中国人众所周知的小米。
  • 第三、前20名中,绝大多数(8成在美国,在加州,在硅谷,在旧金山!)比方Uber,Airbnb,Dropbox,Pinterest。
  • 第四、内里也有不少相似的成功形式,比方Flipkart就是印度市场的淘宝,Uber与Airbnb都是同享经济的范畴。

所以人人照样可以在挪动(Uber),大数据(Palantir),消耗级互联网,通信(Snapchat),付出(Square),O2O App内里寻找到大时机。这内里许多公司我都亲身口试和感受过他们的环境。

问:有如此之多的高估值公司,是不是意味着存在很大的泡沫?

我以为在硅谷这个充溢妄想的处所,投资人勉励创业者斗胆勇敢去做,一样也助长了泡沫。许多项目在几个月的时刻就会估值翻2、3倍,如Uber,Snapchat等等,我也惊奇于他们的巨额融资范围。

下面这张图讲的就是“新兴手艺炒作”周期,把种种手艺依据手艺成熟度和希冀值分类,这是硅谷创业孵化器YCombinator的课程How to start a startup提到的。“立异抽芽(Innovation Trigger)”、“希冀最极点(Peak ofInflated Expectation)”、“下调预期至低点(Trough of Disillusion)”、“回归抱负(Slope ofEnlightenment)”、“生产率平台(Plateau of Productivity)”。越往左,手艺约新潮,越处于观点阶段;越往右,手艺约成熟,越轻易进入贸易化运用,发挥出提高生产率的结果。纵轴代表预期值,人们关于新手艺通常会跟着熟习的深切,预期不停升温,伴之以媒体炒作而抵达巅峰;随之因手艺瓶颈或其他缘由,预期逐步冷却至低点;但手艺成熟后,希冀又从新上升,从新积聚用户,然后就到了可持续增进的康健轨道上来。本年和客岁的图对照显现,物联网、自动驾驶汽车、消耗级3D打印、自然言语问答等观点正在处于炒作的巅峰。而大数据已从巅峰滑落,NFC和云盘算靠近谷底。

《Coursera数据工程师董飞:硅谷大数据的过去与将来》

问:你以为将来高科技创业的趋向是什么?

我先提一部近来看过的影戏《模拟游戏》(Imitation Game),这部影片讲的是盘算机逻辑的奠基者艾伦图灵困难的终身。他昔时为破译德军暗码制作了图灵机为二战成功做出卓越孝敬,挽回几千万人的性命,可在谁人时期,他由于是同性恋而被判化学阉割,末了自尽完毕了短暂的42岁性命。他的庞大孝敬之一就是在人工智能方面的开辟,他提出图灵测试(Turing Test),测试某机械是不是能表现出与人等价或没法辨别的智能。在本日,人工智能已有了很大提高,从专家体系到基于统计的进修,从支撑向量机到神经收集深度进修,每一步都率领机械智能走向下一个门路。

Google的资深科学家吴军博士(《数学之美》,《海潮之巅》作者),他提出当前手艺生长三个趋向:第一、云盘算和和挪动互联网,这是正在进行时;第二、机械智能,如今最先发作,但对社会的影响许多人还没有意想到;第三、大数据和机械智能连系,这是将来时,一定会发作,有公司在做,但还没有太组成范围。他以为将来机械会掌握98%的人,而如今我们就要做个挑选,怎样成为剩下的2%? 李开复在2015年新年瞻望也提出将来五年物联网将带来庞大创业时机。

问:为何大数据和机械智能连系的将来一定会到来?

实在在工业革命(1820年)之前,天下人均GDP在1800年前的两三千年里基础没有变化,而从1820年到2001年的180年里,天下人均GDP从本来的667美圆增进到6049美圆。由此足见,工业革命带来的收入增进的确是天翻地覆的。但人类的提高并没有住手或许稳步增进,在发清楚明了电力、电脑、互联网、挪动互联网以后,环球年GDP增进从万分之5涨到了2%,信息也是在急剧增进。依据盘算,近来两年的信息量是之前30年的总和,近来10年的信息量远超人类一切之前累计的信息量之和。在盘算机时期,有个著名的摩尔定律,就是说一样本钱下,每隔18个月晶体管数目会翻倍,反过来一样数目晶体管本钱会减半,这个规律已很好地对应了近来30年的生长,而且可以衍生到许多相似的范畴,比方存储、功耗、带宽、像素等等。

作为20世纪最重要的数学家之一,当代盘算机、博弈论和核武器等诸多范畴的科学全才之一,冯•诺伊曼提出“手艺”将会迫近人类汗青上的某种实质的奇点,在那以后,悉数人类行动都不可以以我们熟习的相貌继承存在。这就是著名的奇点理论。现在,信息量正在以越来越快的指数型速率增进,美国将来学家Ray Kurzweil称人类可以在2045年完成数字化长生,他自身也创办了奇点大学。置信跟着信息手艺、无线网、生物、物理等范畴的指数级增进,人类将在2029年完成人工智能,人的寿命也将会在将来15年获得大幅延伸。

问:外洋值得关注的大数据公司都有哪些?国内又有哪些?

大抵可以把大数据公司分红基础架构类和运用类,而底层都是会用到一些通用手艺,如Hadoop、Mahout、HBase、Cassandra等等;在剖析范畴,Cloudera、Hortonworks、MapR是Hadoop的三剑客;在运维范畴,MongoDB、CouchBase都是NoSQL的代表;在效劳范畴,AWS和Google BigQuery一触即发;在传统数据库,Oracle收买了MySQL,DB2是老牌银行专用,而Teradata则做了多年数据仓库。

Apps范畴的大数据公司更多,比方交际消耗范畴的Google、 Amazon、Netflix、Twitter等等, 贸易智能范畴的SAP、GoodData,另有一些在广告媒体范畴,TURN、Rocketfuel,别的另有做智能运维的Sumo Logic等等。客岁的新星 Databricks 伴跟着Spark的海潮震动了Hadoop的生态体系。

关于迅速生长的中国市场,大公司也意味着大数据。BAT三家对大数据的投入都是不惜余力的。我4年前在百度的时刻,百度就提出框盘算的观点,近来两年景立了百度硅谷研讨院,挖来Andrew Ng作为首席科学家,研讨项目就是百度大脑,在语音、图片辨认手艺上大幅提高精确度和召回率,近来还做了个无人自行车,异常风趣。腾讯作为最大的交际运用对大数据也是情有独钟,他们自身研发了C++平台的海量存储体系。淘宝客岁双十一主战场,2分钟打破10亿,交易额打破571亿,背地有许多故事,昔时在百度做Pyramid(按Google三辆马车打造的金字塔三层分布式体系)的有志之士,继承在OceanBase制造神话。阿里云昔时备受争议,马云也被疑心是不是是被王坚忽悠,末了阅历了双十一的浸礼证清楚明了OceanBase和阿里云是靠谱的。小米的雷军对大数据也依靠厚望,一方面这么多数据几何级数增进,另一方面存储带宽都是庞大本钱,没代价就真破产了。

问:与大数据手艺关联最严密的就是云盘算,您曾在Amazon 云盘算部门事情过,能简朴引见一下亚马逊的AWS和Redshift框架吗?

AWS总体上成熟度很高,有大批startup都是基于上面开辟,比方著名的Netflix,Pinterest,Coursera等。Amazon还在不停立异,每一年召开reInvent大会推行新的云产物和分享成功案例。在这内里我随便说几个,S3是简朴面向对象的存储,DynamoDB是对关联型数据库的补充,Glacier是对冷数据做归档处置惩罚,Elastic MapReduce直接对MapReduce做打包供应盘算效劳,EC2就是基础的虚拟主机,Data Pipeline 会供应图形化界面直接串连事情任务。

《Coursera数据工程师董飞:硅谷大数据的过去与将来》

Redshift是一种大范围并行盘算(massively parallel computer)架构,是异常轻易的数据仓库处理方案,它作为SQL接口跟各个云效劳无缝衔接。Redshift的最大特性就是快,在TB到PB级别有异常好的机能。我在事情中也是直接运用Redshift,它还支撑差别的硬件平台,假如想速率更快,可以运用SSD的,固然支撑容量就小些。

问:Hadoop是当今最盛行的大数据手艺,在它涌现的当时,是什么造成了Hadoop的盛行?当时Hadoop具有哪些设想上的上风?

要看Hadoop从那里最先,就不得不提Google的先进性。在10多年前,Google宣布了3篇论文叙述分布式体系的做法,分别是GFS、MapReduce、BigTable。虽然都是很厉害的体系,但没人见过。在工业界许多人痒痒得就想按其头脑去仿作。当时Apache Nutch Lucene的作者Doug Cutting也是个中之一。厥后Doug他们被Yahoo收买,特地建立Team来投入研讨,这就是Hadoop最先和大范围生长的处所。以后跟着Yahoo的式微,牛人去了Facebook、 Google,也有的建立了Cloudera、Hortonworks等大数据公司,把Hadoop的实践带到各个硅谷公司。而Google还没有住手,又出了新的三辆马车,Pregel、Caffeine、Dremel,厥后又有许多人步入后尘,最先了新一轮开源大战。

为啥Hadoop就比较合适做大数据呢?起首扩展性很好,直接经由过程加节点就可以把体系才提高。Hadoop有个重要头脑就是挪动盘算而不是挪动数据,由于数据的挪动会带来很大的本钱,需要收集带宽。其次,Hadoop提出的目的就是应用低价的一般盘算机(硬盘),如许虽然可以不稳定(磁盘坏的概率),但经由过程体系级别上的容错和冗余到达高牢靠性。而且异常天真,可以运用种种数据,二进制、文档型、纪录型,也可以运用种种形式,结构化、半结构化、非结构化(所谓的schemaless),在按需盘算上也是个技能。

问:MapReduce模子有什么题目?

第一、需要写许多底层的代码,不够高效。第二、一切的事变必需要转化成两个操纵Map或Reduce,这自身就很新鲜,也不能处理一切的状况。

问:Spark从何而来?Spark比拟于Hadoop MapReduce设想上有什么样的上风?

实在Spark涌现就是为了处理上面的题目。先说一些Spark的劈头,它来自 2010年Berkeley AMPLab,宣布在HotCloud上的Spark是一个从学术界到工业界的成功模范,也吸收了顶级VC Andreessen Horowitz的注资。在2013年,这些大牛(包括Berkeley系主任,MIT最年青的助理传授)从Berkeley AMPLab出去建立了Databricks,引无数Hadoop大佬尽折腰。

Spark是用函数式言语Scala编写的,Spark简朴说就是内存盘算(包括迭代式盘算、DAG盘算、流式盘算 )框架。之前MapReduce因效力低下,经常被人人诟病,而Spark的涌现让人人觉得很清爽。 Reynod 作为Spark中心开辟者,引见说Spark机能超Hadoop百倍,算法完成唯一其1/10或1/100。在客岁的Sort benchmark上,Spark用了23min跑完了100TB的排序,革新了之前Hadoop坚持的天下纪录。

问:Linkedin都采纳了哪些大数据开源手艺?

在LinkedIn有许多数据产物,比方People you may like、Job you may be interested。你的用户接见泉源,以至你的career path都可以发掘出来。Linkedin也大批用到了开源手艺,我这里就说一个最成功的Kafka。Kafka是一个分布式的音讯行列,可以用在tracking、机械内部metrics、数据传输上。数据在前端后端会经由差别的存储或许平台,每一个平台都有自身的花样,假如没有一个unified log,会涌现灾害型的O(m*n)的数据对接复杂度。假如你设定的花样一旦发作变化,也要修正一切相干的花样。所以这里提出的中心桥梁就是Kafka,人人商定用一个花样作为传输规范,然后在接收端可以恣意定制你想要的数据源(topics),末了完成线性的O(m+n)复杂度。对应的设想细节,照样要参考设想文档 ,这内里重要作者Jay Kreps、Rao Jun建立了Kafka作为自力生长的公司。

Hadoop作为批处置惩罚的主力,大批运用在各个产物线上。比方广告组,我们一方面需要去做一些天真的查询,剖析广告主的婚配、广告展望和实际结果,别的在报表天生方面也是用Hadoop作为支撑。假如你想去口试LinkedIn 后端组,我发起应该去把Hive、Pig、Azkaban(数据流的治理软件)、Avro 数据定义花样、Kafka、Voldemort 都相识一下。LinkedIn有特地的开源社区,也是在建立自身的手艺品牌。

问:能谈一谈Coursera在大数据架构方面和其他硅谷创业公司比拟有什么特性?是什么缘由和手艺取向造成了这些特性?

起首我引见一下Coursera。作为MOOC(大型开放式收集课程)中的领头羊,Coursera在2012年由Stanford大学的Andrew和Daphne两名传授建立,现在160名员工,原Yale校长担负CEO。Coursera的任务是universal access to world’s best education。许多人问我为何到场,起首我异常承认公司的任务,我置信教诲可以转变人生,一样我们也可以转变教诲。能不能把手艺跟教诲连系起来,这是一个很风趣的话题,内里有许多东西可以连系。比方供应高牢靠平台支撑大范围用户在线并发接见,应用数据发掘剖析门生行动做个性化课程进修并提高课程满意度,经由过程机械进修辨认功课、相互评判,用手艺让人们同等便利的猎取教诲效劳。

Coursera作为创业公司,异常想坚持迅速和高效。从手艺上来讲,一切的手艺都是基于AWS开辟的,可以随便启动云端效劳并做试验。我们大抵分红产物组,架构组和数据剖析组。由于公司比较新,所以没有什么汗青遗留迁徙的题目。人人斗胆勇敢地运用Scala作为重要编程言语,采纳Python作为剧本掌握。比方产物组就是供应课程产物,内里大批运用Play Framework,JavaScript的backbone作为掌握中枢。而架构组重如果保护底层存储、通用效劳、机能和稳定性。我地点的数据组由10多人组成,一部分是对贸易产物,中心增进目标做监控、发掘和革新。一部分是搭建数据仓库完美跟各个部门的无缝数据活动,这里也用到了许多手艺。比方运用Scalding编写Hadoop MapReduce顺序,也有人做AB testing框架、 引荐体系,尽可以用起码人力做有影响力的事变。实在除了开源天下,我们也主动运用第三方的产物,比方我们用Sumo Logic做日记毛病剖析,用Redshift作为大数据剖析平台,用Slack做内部通信。而一切的这些就是想解放生产力,把重心放到用户体验、产物开辟和迭代上去。

Coursera是一个有任务驱动的公司,人人不是为了寻求手艺的极致,而是为了效劳好先生、同砚,处理他们的痛点,分享他们的成功。这点是跟其他手艺公司最大的区分。从某个方面来讲,如今我们照样处于初期积聚阶段,大范围盘算时期还没有降临,我们只要主动进修、顺应变化才坚持创业公司的高速生长。

问:假如想处置大数据方面的事情,是不是可以引荐一些有用的进修方法?有哪些引荐的书本?

起首照样打好基础,Hadoop虽然炽热,但它的基础道理都是书本上许多年的积聚。像算法导论、Unix设想哲学、数据库道理、深切明白盘算机道理、Java设想形式,有一些重量级的书可以参考,Hadoop 最典范的The Definitive Guide, 我在知乎上也有分享

其次是挑选目的,假如你想做数据科学家,我可以引荐coursera上的data science课程,通俗易懂。进修Hive,Pig这些基础东西,假如做运用层,重如果要熟习Hadoop的一些事情流,包括一些基础调优。假如是想做架构,除了要能搭建集群,要对各个基础软件效劳很相识,还要明白盘算机的瓶颈和负载治理以及Linux的一些机能东西。

末了,照样要多加练习。大数据自身就靠实践,你可以先按API写书上的例子,做到有才调试成功。再下面就是多积聚,当碰到相似的题目时能找到对应的典范形式。然后就是实际题目了,或许周边谁也没碰到过如许的题目,你需要灵感和在网上问题目的技能,然后依据实际状况作出最好挑选。

更多出色,到场图灵访谈微信!

《Coursera数据工程师董飞:硅谷大数据的过去与将来》

    原文作者:图灵访谈
    原文地址: https://segmentfault.com/a/1190000002514967
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞