AWS的大数据生态1

AWS的用户应该都注意过AWS对所有流入AWS的数据都不收费,很明显AWS有意引导用户把更多的数据放到AWS云中,因为把数据放在什么地方会引发后续一系列的连锁反应。AWS与其它云或者本地 (on-premises) 数据中心的竞争本质其实就是数据争夺,且不说数据本身的存储、处理、传输和安全就是很重要的业务,用户也会往往因其便利性也更倾向于使用其它的衍生服务。

AWS的服务众多,看起来让人眼花缭乱,但实现上都基于几大基础服务——S3存储、EC2虚拟机、RDS数据库和IAM权限访问管理。在这些基础服务之上,AWS首先构建起了支撑开发和运营的DevOps云端生态环境,这几年来越来越多客户的需要从数据中获取洞见(insight)来增强自身的竞争力,这就衍生了大数据和机器学习以及相关一系列“高级”需求。AWS从几年前开始逐步发力营造的大数据生态环境已颇具规模。

AWS的大数据生态概览

AWS的大数据生态包括数据收集(Collection)、存储(Storage)、处理(Processing)、分析(Analysis)、可视化(Visualization)、安全(Security)和机器学习(Machine Learning)七个阶段相关的所有服务,具体到每个阶段所包含的服务如下表:

AWS
Collection Kinesis Stream, Kinesis Firehose, SQS, IoT, Data Pipeline, EMR Sqoop, Lambda
Storage S3, DynamoDB, Redshift, EMR Hbase/Hive RDS,ElasticSearch
Process Kinesis Stream/Firehose, Lambda, EMR, Spark/Pig
Analysis Kinesis analysis, Redshift, EMR, Athena, EMR Presto, ElasticSearch
Visualization QuickSight
Security IAM, IAM STS, KMS, CloudHSM
Machine Learning EMR SparkML/Mahout, AWS Machine Learning, SageMaker

在AWS的大数据生态中,Kinesis、S3、EMR、DynamoDB和Redshift是几大核心服务。这里面EMR相对比较特殊,因为其它都是AWS的原生服务,而EMR则是提供了AWS管理的Hadoop运行框架,其主要功能则是由安装其中的开源软件所决定,比如SQL引擎Presto,处理引擎Spark,数据仓库Hive,NoSQL大数据库HBase等等。EMR支持开源大数据生态中的大多数软件,所以可以看到EMR几乎出现在上表中的各个阶段。需要注意的是,EMR是一套”重型武器”,运行开销较大。

Kinesis是流式数据处理服务,Kinesis Stream可定制性强,Firehose则是由AWS完全管理,与其它很多AWS服务可以直接集成。S3是AWS最重要和基础的服务,所有的服务都可以与S3集成使用。DynamoDB是AWS的NoSQL数据库,用户不需要担心底层存储,读写性能可随需随时设定。Redshift是AWS的数据仓库,是数据分析的核心服务。

后面将会继续分每个阶段介绍这些服务,下节待续。

    原文作者:自由01
    原文地址: https://www.jianshu.com/p/86c8eab65e98
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞