2017年大数据技术的回顾与展望(迟...)

2024年3月30日 136次阅读来源: XuJiang

回往，我从事大数据行业已经第5年了。

可以说，从大数据非常技术，很难商业化，到今天各种各样的大数据创业公司井喷式发展。

2017年，非常特殊，已经有人开始唱衰Hadoop

而此时，人工智能AI，开始在国内外大肆炒作，这样的场面何其相似。

2007年，Hadoop面世，2009年国内开始有人尝试Hadoop，到今天Hadoop在互联网公司大规模部署，帮助企业实现高效率的数据变现。

Hadoop最早是始于Yahoo孵化，用于存储海量的日志数据和爬虫数据，并且定期清洗、聚合数据。

互联网公司，有海量的数据，需要这样的分布式系统帮助解决日志问题。

随着Hadoop的开放性，Hadoop受到了更多的应用场景的检测，逐渐显现出不足，但是他强大的可扩展性和容错依旧优秀。

由于开源的特性，导致更多的公司尝试利用Hadoop解决生成问题，不足之处很多。

慢慢的Hadoop生态圈的概念出来了，最开始就是pig、hive这样封装MapReduce的框架出现，大大降低企业使用Hadoop的门槛。

国内，最早使用Hadoop解决业务问题的是电商(互联网企业)，推荐系统；传统企业最早始于运营商、银行、金融；开始渗透到公安、交通、政府、工业等领域。

在海里数据中，可以高并发写入和查询，于是就社区发起了Hbase项目，到目前为止依然是个大互联网公司热爱的技术，社区非常活跃。

为保障Hadoop生态圈个组件之间数据一致性、以及Hbase高并发写入多节点数据一致，通过zookeeper进行协调。

Hadoop无法支持低延迟数据分析，出现了流处理技术storm。

MapReduce中间结果写磁盘特别慢，而如今硬件发展快，可以大量利用内存，出现了内存计算技术spark。

今天，以Hadoop为中心，已经出现太多的针对各种场景特殊优化的组件。

目前主要分一下几个方向:

批处理系统

MapReduce
Spark

流处理系统

Storm
Flink
Heron
SparkStreaming (勉强)

即席查询 (SQL on Hadoop)

Impala
Drill
Persto
HAWQ
Hive2 LLAP (勉强）
SparkSQL (勉强）

机器学习 & 深度学习

SystemML
TensorFlow
Mllib
MADLab

NoSQL

Cassandra
Hbase+Phoenix

集群安全

Ranager
Sentry
Kerberos
Konx
Cloudera Navigator (闭源)
Navigator Encrypt & Key (闭源)

企业级发行版

CDH
HDP
MapR

目前Hadoop主要分为：批处理灵活可编程系统、流处理系统、SQL即席查询、机器学习&深度学习系统、NoSQL目前使用广泛的如上所示，随着Hadoop进入各行各业，集群安全和数据安全也是Hadoop各大发行版公司重点研发的方向。

目前Cloudera CDH和Hortonworks HDP，都在不同程度上完成对集群数据安全和访问安全的控制。

目前CDH和HDP主流的企业级大数据发行版，CDH产品成熟度和企业级安全方面做做得最成熟和可靠的，属于半闭源产品。HDP是大而全的功能，并且以完全开放的路线在发展，让更多的公司能参与其中，让客户有更多选择。

国内企业，大都以CDH和HDP做为参考目标，产品也都有各自的特色，帮助客户更要的解决生产问题。

2017年，Hadoop整体开始回归SQL，各家都在发力，因为在企业级市场，SQL on Haodop的SQL语法兼容度和高性能是很关键的特性，包括兼容现有客户投资的DB系统。

2017年

SparkSQL宣布完整通过TPC-DS的99个SQL性能测试。
MADlab，SQL中编写数据挖掘&机器学习算法。
TensorFlow on Hadoop框架层出不穷。
Hive2 LLAP低延迟数据分析发布，即席查询。 hortonworks 务实。
Impala 解析引擎更智能，高性能响应，分布式查询优化。
Hadoop发行版，强调支持数据访问权限、数据安全、集群安全。
Apache Hadoop 3.3.0 GA发布，期待的新功能。
更多Hadoop上云需求，面临架构的整体变化，社区&厂商都在努力。
SQL on Cloud（GreenPlum系）和 NewSQL系获得更多融资。
NoSQL开始别唱衰、但是Hbase依然坚挺，服务于海量数据业务。
SQL on Hadoop很多框架，眼花缭乱，残酷的淘汰，社区慢慢变冷。
一统批处理和流处理的Apache Beam框架发布。
企业大数据即席查询BI可视化。

2017年是Hadoop在企业级市场更多落地，解决实际问题，更务实的一年。

SQL on Hadoop系统，在更多传统客户那里更受青睐，驳杂的技术词汇，客户浪费大量时间调研和考察。

商业Hadoop发行版公司都提出了自己Hadoop on Cloud方案，弹性伸缩，按需建立集群、数据统一存储Cloud Storage Pool。

Spark、Impala、greenplum、NewSQL、NoSQL与Hadoop结合没那么紧密的独立系统，更容易云化，底层直接读写S3、Azure Blob Storage，基本抛弃了Hadoop。

2018年，Hadoop会变得更加的成熟和适应企业现有基础设施架构。

SQL on Hadoop系统，大浪淘沙、只留精品。

Hadoop on Cloud有更加优秀的平台和产品出现。

DL&ML on Hadoop有更加成熟的产品和方案。

BigData on Cloud涌现更多商业企业和开源软件。

企业级流处理系统，务必更加易用和可商业化。

Hadoop 3.0更多案例，更高的性能。

Hadoop系统的选择，更多企业会变得更加慎重。

中小规模企业，寻找Hadoop之外的系统方案，管理企业数据。

GreenPlume OpenSource 将会有越来越多的案例，本地和云端。

真正的批处理和流处理系统Flink将会有更多应用案例。

没人真正关心流处理和批处理模型，我们要的是快、超快、超超超快。

OpenSource 企业级BI工具更加成熟，原生支持SQL on Hadoop系统。

Hadoop将会在数据安全、集群安全、访问控制提供完整的产品。

文末

非常繁忙的年底，新的一年研发新一代的企业级流处理系统，支持完整的BI可视化工具，完整的数据采集可视化。目前正在争取年后发布一个版本，一个纯粹的企业级流处理系统。

2018年，专注于企业级数据仓库技术，业余计划撸一套分布式OLAP数据库产品，极致性能、数据可视化；积极学习业界领先的分布式数据技术，闲暇之余玩faceswap，DL App产品。

关于FaceFake，可以关注我的GitHub，一种基于深度学习的换脸技术，我觉得可以做成一个app，把你喜欢的明星变成任何影视作品的男女主。

技术成熟，已经用在了歪门邪道上，国外有个工程师因此火爆了一把，上了头条。

关于FaceFake，GitHub空空如也，目前还是我的想象啦，上线再通知各位。

文章，是即兴创作，如未描述清楚，请留言讨论。

欢迎关注微信公众号[whoami]，阅读更多内容。

http://weixin.qq.com/r/zUgkPBvEPEZDrV9f9x3f (二维码自动识别)

原创文章，转载请注明：转载自Itweet的博客
本博客的文章集合: http://www.itweet.cn/blog/archive/

    原文作者：XuJiang
    原文地址: https://zhuanlan.zhihu.com/p/33235790
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。