Coursera数据工程师董飞：硅谷大数据的过去与将来

2019年8月26日 287次阅读来源: 图灵访谈

非贸易转载请说明作译者、出处，并保存本文的原始链接：http://www.ituring.com.cn/article/177529

董飞，Coursera数据工程师。曾前后在创业公司酷迅，百度基础架构组，Amazon 云盘算部门，LinkedIn担负高级工程师，担任垂直搜刮，百度云盘算平台研发和广告体系的架构。董飞本科毕业于南开大学，硕士毕业于杜克大学盘算机系。他在知乎上分享过多个引发强烈反响的问答，个中包括《哪些硅谷创业公司能给造访者留下深刻印象》、《美国大数据工程师口试攻略》、《Coursera 上有哪些课程值得引荐》等。

《Coursera数据工程师董飞：硅谷大数据的过去与将来》

问：硅谷最火的高科技创业公司都有哪些？

在硅谷人人异常热忱地谈创业谈时机，我也经由过程自身的一些视察和积聚，看到了不少近来几年涌现的热点创业公司。这个是华尔街网站的环球创业公司融资范围评比。它原本的题目是billion startup club，不到一年的时刻，住手到2015年1月17日，如今的排名和范围已发作了很大的变化。

《Coursera数据工程师董飞：硅谷大数据的过去与将来》

起首，估值在10 Billlon的到达了7家，而一年前一家都没有。
第二、第一名是中国人众所周知的小米。
第三、前20名中，绝大多数（8成在美国，在加州，在硅谷，在旧金山！）比方Uber，Airbnb，Dropbox，Pinterest。
第四、内里也有不少相似的成功形式，比方Flipkart就是印度市场的淘宝，Uber与Airbnb都是同享经济的范畴。

所以人人照样可以在挪动（Uber），大数据（Palantir），消耗级互联网，通信（Snapchat），付出（Square），O2O App内里寻找到大时机。这内里许多公司我都亲身口试和感受过他们的环境。

问：有如此之多的高估值公司，是不是意味着存在很大的泡沫？

我以为在硅谷这个充溢妄想的处所，投资人勉励创业者斗胆勇敢去做，一样也助长了泡沫。许多项目在几个月的时刻就会估值翻2、3倍，如Uber，Snapchat等等，我也惊奇于他们的巨额融资范围。

下面这张图讲的就是“新兴手艺炒作”周期，把种种手艺依据手艺成熟度和希冀值分类，这是硅谷创业孵化器YCombinator的课程How to start a startup提到的。“立异抽芽（Innovation Trigger）”、“希冀最极点（Peak ofInflated Expectation）”、“下调预期至低点（Trough of Disillusion）”、“回归抱负（Slope ofEnlightenment）”、“生产率平台（Plateau of Productivity）”。越往左，手艺约新潮，越处于观点阶段；越往右，手艺约成熟，越轻易进入贸易化运用，发挥出提高生产率的结果。纵轴代表预期值，人们关于新手艺通常会跟着熟习的深切，预期不停升温，伴之以媒体炒作而抵达巅峰；随之因手艺瓶颈或其他缘由，预期逐步冷却至低点；但手艺成熟后，希冀又从新上升，从新积聚用户，然后就到了可持续增进的康健轨道上来。本年和客岁的图对照显现，物联网、自动驾驶汽车、消耗级3D打印、自然言语问答等观点正在处于炒作的巅峰。而大数据已从巅峰滑落，NFC和云盘算靠近谷底。

《Coursera数据工程师董飞：硅谷大数据的过去与将来》

问：你以为将来高科技创业的趋向是什么？

我先提一部近来看过的影戏《模拟游戏》（Imitation Game），这部影片讲的是盘算机逻辑的奠基者艾伦图灵困难的终身。他昔时为破译德军暗码制作了图灵机为二战成功做出卓越孝敬，挽回几千万人的性命，可在谁人时期，他由于是同性恋而被判化学阉割，末了自尽完毕了短暂的42岁性命。他的庞大孝敬之一就是在人工智能方面的开辟，他提出图灵测试（Turing Test），测试某机械是不是能表现出与人等价或没法辨别的智能。在本日，人工智能已有了很大提高，从专家体系到基于统计的进修，从支撑向量机到神经收集深度进修，每一步都率领机械智能走向下一个门路。

Google的资深科学家吴军博士（《数学之美》，《海潮之巅》作者），他提出当前手艺生长三个趋向：第一、云盘算和和挪动互联网，这是正在进行时；第二、机械智能，如今最先发作，但对社会的影响许多人还没有意想到；第三、大数据和机械智能连系，这是将来时，一定会发作，有公司在做，但还没有太组成范围。他以为将来机械会掌握98％的人，而如今我们就要做个挑选，怎样成为剩下的2％？李开复在2015年新年瞻望也提出将来五年物联网将带来庞大创业时机。

问：为何大数据和机械智能连系的将来一定会到来？

实在在工业革命（1820年）之前，天下人均GDP在1800年前的两三千年里基础没有变化，而从1820年到2001年的180年里，天下人均GDP从本来的667美圆增进到6049美圆。由此足见，工业革命带来的收入增进的确是天翻地覆的。但人类的提高并没有住手或许稳步增进，在发清楚明了电力、电脑、互联网、挪动互联网以后，环球年GDP增进从万分之5涨到了2％，信息也是在急剧增进。依据盘算，近来两年的信息量是之前30年的总和，近来10年的信息量远超人类一切之前累计的信息量之和。在盘算机时期，有个著名的摩尔定律，就是说一样本钱下，每隔18个月晶体管数目会翻倍，反过来一样数目晶体管本钱会减半，这个规律已很好地对应了近来30年的生长，而且可以衍生到许多相似的范畴，比方存储、功耗、带宽、像素等等。

作为20世纪最重要的数学家之一，当代盘算机、博弈论和核武器等诸多范畴的科学全才之一，冯•诺伊曼提出“手艺”将会迫近人类汗青上的某种实质的奇点，在那以后，悉数人类行动都不可以以我们熟习的相貌继承存在。这就是著名的奇点理论。现在，信息量正在以越来越快的指数型速率增进，美国将来学家Ray Kurzweil称人类可以在2045年完成数字化长生，他自身也创办了奇点大学。置信跟着信息手艺、无线网、生物、物理等范畴的指数级增进，人类将在2029年完成人工智能，人的寿命也将会在将来15年获得大幅延伸。

问：外洋值得关注的大数据公司都有哪些？国内又有哪些？

大抵可以把大数据公司分红基础架构类和运用类，而底层都是会用到一些通用手艺，如Hadoop、Mahout、HBase、Cassandra等等；在剖析范畴，Cloudera、Hortonworks、MapR是Hadoop的三剑客；在运维范畴，MongoDB、CouchBase都是NoSQL的代表；在效劳范畴，AWS和Google BigQuery一触即发；在传统数据库，Oracle收买了MySQL，DB2是老牌银行专用，而Teradata则做了多年数据仓库。

Apps范畴的大数据公司更多，比方交际消耗范畴的Google、 Amazon、Netflix、Twitter等等，贸易智能范畴的SAP、GoodData，另有一些在广告媒体范畴，TURN、Rocketfuel，别的另有做智能运维的Sumo Logic等等。客岁的新星 Databricks 伴跟着Spark的海潮震动了Hadoop的生态体系。

关于迅速生长的中国市场，大公司也意味着大数据。BAT三家对大数据的投入都是不惜余力的。我4年前在百度的时刻，百度就提出框盘算的观点，近来两年景立了百度硅谷研讨院，挖来Andrew Ng作为首席科学家，研讨项目就是百度大脑，在语音、图片辨认手艺上大幅提高精确度和召回率，近来还做了个无人自行车，异常风趣。腾讯作为最大的交际运用对大数据也是情有独钟，他们自身研发了C++平台的海量存储体系。淘宝客岁双十一主战场，2分钟打破10亿，交易额打破571亿，背地有许多故事，昔时在百度做Pyramid（按Google三辆马车打造的金字塔三层分布式体系）的有志之士，继承在OceanBase制造神话。阿里云昔时备受争议，马云也被疑心是不是是被王坚忽悠，末了阅历了双十一的浸礼证清楚明了OceanBase和阿里云是靠谱的。小米的雷军对大数据也依靠厚望，一方面这么多数据几何级数增进，另一方面存储带宽都是庞大本钱，没代价就真破产了。

问：与大数据手艺关联最严密的就是云盘算，您曾在Amazon 云盘算部门事情过，能简朴引见一下亚马逊的AWS和Redshift框架吗？

AWS总体上成熟度很高，有大批startup都是基于上面开辟，比方著名的Netflix，Pinterest，Coursera等。Amazon还在不停立异，每一年召开reInvent大会推行新的云产物和分享成功案例。在这内里我随便说几个，S3是简朴面向对象的存储，DynamoDB是对关联型数据库的补充，Glacier是对冷数据做归档处置惩罚，Elastic MapReduce直接对MapReduce做打包供应盘算效劳，EC2就是基础的虚拟主机，Data Pipeline 会供应图形化界面直接串连事情任务。

《Coursera数据工程师董飞：硅谷大数据的过去与将来》

Redshift是一种大范围并行盘算（massively parallel computer）架构，是异常轻易的数据仓库处理方案，它作为SQL接口跟各个云效劳无缝衔接。Redshift的最大特性就是快，在TB到PB级别有异常好的机能。我在事情中也是直接运用Redshift，它还支撑差别的硬件平台，假如想速率更快，可以运用SSD的，固然支撑容量就小些。

问：Hadoop是当今最盛行的大数据手艺，在它涌现的当时，是什么造成了Hadoop的盛行？当时Hadoop具有哪些设想上的上风？

要看Hadoop从那里最先，就不得不提Google的先进性。在10多年前，Google宣布了3篇论文叙述分布式体系的做法，分别是GFS、MapReduce、BigTable。虽然都是很厉害的体系，但没人见过。在工业界许多人痒痒得就想按其头脑去仿作。当时Apache Nutch Lucene的作者Doug Cutting也是个中之一。厥后Doug他们被Yahoo收买，特地建立Team来投入研讨，这就是Hadoop最先和大范围生长的处所。以后跟着Yahoo的式微，牛人去了Facebook、 Google，也有的建立了Cloudera、Hortonworks等大数据公司，把Hadoop的实践带到各个硅谷公司。而Google还没有住手，又出了新的三辆马车，Pregel、Caffeine、Dremel，厥后又有许多人步入后尘，最先了新一轮开源大战。

为啥Hadoop就比较合适做大数据呢？起首扩展性很好，直接经由过程加节点就可以把体系才提高。Hadoop有个重要头脑就是挪动盘算而不是挪动数据，由于数据的挪动会带来很大的本钱，需要收集带宽。其次，Hadoop提出的目的就是应用低价的一般盘算机（硬盘），如许虽然可以不稳定（磁盘坏的概率），但经由过程体系级别上的容错和冗余到达高牢靠性。而且异常天真，可以运用种种数据，二进制、文档型、纪录型，也可以运用种种形式，结构化、半结构化、非结构化（所谓的schemaless），在按需盘算上也是个技能。

问：MapReduce模子有什么题目？

第一、需要写许多底层的代码，不够高效。第二、一切的事变必需要转化成两个操纵Map或Reduce，这自身就很新鲜，也不能处理一切的状况。

问：Spark从何而来？Spark比拟于Hadoop MapReduce设想上有什么样的上风？

实在Spark涌现就是为了处理上面的题目。先说一些Spark的劈头，它来自 2010年Berkeley AMPLab，宣布在HotCloud上的Spark是一个从学术界到工业界的成功模范，也吸收了顶级VC Andreessen Horowitz的注资。在2013年，这些大牛（包括Berkeley系主任，MIT最年青的助理传授）从Berkeley AMPLab出去建立了Databricks，引无数Hadoop大佬尽折腰。

Spark是用函数式言语Scala编写的，Spark简朴说就是内存盘算（包括迭代式盘算、DAG盘算、流式盘算）框架。之前MapReduce因效力低下，经常被人人诟病，而Spark的涌现让人人觉得很清爽。 Reynod 作为Spark中心开辟者，引见说Spark机能超Hadoop百倍，算法完成唯一其1/10或1/100。在客岁的Sort benchmark上，Spark用了23min跑完了100TB的排序，革新了之前Hadoop坚持的天下纪录。

问：Linkedin都采纳了哪些大数据开源手艺？

在LinkedIn有许多数据产物，比方People you may like、Job you may be interested。你的用户接见泉源，以至你的career path都可以发掘出来。Linkedin也大批用到了开源手艺，我这里就说一个最成功的Kafka。Kafka是一个分布式的音讯行列，可以用在tracking、机械内部metrics、数据传输上。数据在前端后端会经由差别的存储或许平台，每一个平台都有自身的花样，假如没有一个unified log，会涌现灾害型的O(m*n)的数据对接复杂度。假如你设定的花样一旦发作变化，也要修正一切相干的花样。所以这里提出的中心桥梁就是Kafka，人人商定用一个花样作为传输规范，然后在接收端可以恣意定制你想要的数据源（topics），末了完成线性的O(m+n)复杂度。对应的设想细节，照样要参考设想文档，这内里重要作者Jay Kreps、Rao Jun建立了Kafka作为自力生长的公司。

Hadoop作为批处置惩罚的主力，大批运用在各个产物线上。比方广告组，我们一方面需要去做一些天真的查询，剖析广告主的婚配、广告展望和实际结果，别的在报表天生方面也是用Hadoop作为支撑。假如你想去口试LinkedIn 后端组，我发起应该去把Hive、Pig、Azkaban（数据流的治理软件）、Avro 数据定义花样、Kafka、Voldemort 都相识一下。LinkedIn有特地的开源社区，也是在建立自身的手艺品牌。

问：能谈一谈Coursera在大数据架构方面和其他硅谷创业公司比拟有什么特性？是什么缘由和手艺取向造成了这些特性？

起首我引见一下Coursera。作为MOOC（大型开放式收集课程）中的领头羊，Coursera在2012年由Stanford大学的Andrew和Daphne两名传授建立，现在160名员工，原Yale校长担负CEO。Coursera的任务是universal access to world’s best education。许多人问我为何到场，起首我异常承认公司的任务，我置信教诲可以转变人生，一样我们也可以转变教诲。能不能把手艺跟教诲连系起来，这是一个很风趣的话题，内里有许多东西可以连系。比方供应高牢靠平台支撑大范围用户在线并发接见，应用数据发掘剖析门生行动做个性化课程进修并提高课程满意度，经由过程机械进修辨认功课、相互评判，用手艺让人们同等便利的猎取教诲效劳。

Coursera作为创业公司，异常想坚持迅速和高效。从手艺上来讲，一切的手艺都是基于AWS开辟的，可以随便启动云端效劳并做试验。我们大抵分红产物组，架构组和数据剖析组。由于公司比较新，所以没有什么汗青遗留迁徙的题目。人人斗胆勇敢地运用Scala作为重要编程言语，采纳Python作为剧本掌握。比方产物组就是供应课程产物，内里大批运用Play Framework，JavaScript的backbone作为掌握中枢。而架构组重如果保护底层存储、通用效劳、机能和稳定性。我地点的数据组由10多人组成，一部分是对贸易产物，中心增进目标做监控、发掘和革新。一部分是搭建数据仓库完美跟各个部门的无缝数据活动，这里也用到了许多手艺。比方运用Scalding编写Hadoop MapReduce顺序，也有人做AB testing框架、引荐体系，尽可以用起码人力做有影响力的事变。实在除了开源天下，我们也主动运用第三方的产物，比方我们用Sumo Logic做日记毛病剖析，用Redshift作为大数据剖析平台，用Slack做内部通信。而一切的这些就是想解放生产力，把重心放到用户体验、产物开辟和迭代上去。

Coursera是一个有任务驱动的公司，人人不是为了寻求手艺的极致，而是为了效劳好先生、同砚，处理他们的痛点，分享他们的成功。这点是跟其他手艺公司最大的区分。从某个方面来讲，如今我们照样处于初期积聚阶段，大范围盘算时期还没有降临，我们只要主动进修、顺应变化才坚持创业公司的高速生长。

问：假如想处置大数据方面的事情，是不是可以引荐一些有用的进修方法？有哪些引荐的书本？

起首照样打好基础，Hadoop虽然炽热，但它的基础道理都是书本上许多年的积聚。像算法导论、Unix设想哲学、数据库道理、深切明白盘算机道理、Java设想形式，有一些重量级的书可以参考，Hadoop 最典范的The Definitive Guide, 我在知乎上也有分享。

其次是挑选目的，假如你想做数据科学家，我可以引荐coursera上的data science课程，通俗易懂。进修Hive，Pig这些基础东西，假如做运用层，重如果要熟习Hadoop的一些事情流，包括一些基础调优。假如是想做架构，除了要能搭建集群，要对各个基础软件效劳很相识，还要明白盘算机的瓶颈和负载治理以及Linux的一些机能东西。

末了，照样要多加练习。大数据自身就靠实践，你可以先按API写书上的例子，做到有才调试成功。再下面就是多积聚，当碰到相似的题目时能找到对应的典范形式。然后就是实际题目了，或许周边谁也没碰到过如许的题目，你需要灵感和在网上问题目的技能，然后依据实际状况作出最好挑选。

算法网

Coursera数据工程师董飞：硅谷大数据的过去与将来

更多出色，到场图灵访谈微信！