在编写Spark Streaming 程序的时候,往往需要我们自行设置checkpoint, 那么它要如何设置,作用又是什么呢? 其实, checkpoint的目的是保证长时间运行的任务在意外挂掉之后能够拉起的时候不丢失…
[Kafka]整合到Spark Streaming
整合Kafka到Spark Streaming——代码示例和挑战 – stark_summer的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/st…
Mac的Hadoop、Spark、Kafka安装
由于Mac上个星期烧了主板,修回来的电脑内容啥也没有了。为了学习和使用,需要再次安装大数据的相关工具,特此记录。 根据自己平时的使用情况,先只安装了Hadoop、Spark、Kafka组件。使用到了brewhome,作为…
Spark Streaming(二)集成Flume数据
Spark Streaming集成Flume有两种方式,分别是基于Push的和基于Pull的,本篇文档参考Spark官网,基于Spark 2.2.0和Flume 1.6.0 Push-based 这种方式是Flume通过…
Shuffle操作原理操作
一、普通的Shuffl操作原理 普通的Shuffle操作原理剖析 二、优化后的Shuffle原理剖析 优化后的Shuffle原理剖析
Spark(Scala)-示例程序
1.版本 system: windows10 jdk: 1.8.0_141 scala: 2.10.5 spark: spark-2.0.2-bin-hadoop2.6 IntelliJ: 15.0.6 2.基本环境安装…
Spark系列3 - Spark SQL
1 从Shark到Spark SQL Spark SQL的前生是Shark,即Hive on Spark。Shark本质是通过Hive的HQL进行解析,将HiveQL翻译成Spark上对应的RDD操作,然后通过Hive的…
【学途无忧网】Spark2.x+Python大数据机器学习视频课程
Spark2.x+Python大数据机器学习视频课程 课程学习地址:http://www.xuetuwuyou.com/course/303 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:…
走进大数据之Hive入门2
一、Hive数据类型 1.基本数据类型 整数类型:tinyint/smallint/int/bigint 浮点数类型: float/double 布尔类型: boolean 字符串类型: string/char/varc…
org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient Logging initializedusing configuration in file:/…
入门到精通:资深程序员规划JAVA大数据学习路线
简介 人类正在从IT时代走向DT(Data Technology)的时代。以互联网、云计算、大数据和人工智能为代表的技术革命正在渗透至各行各业,改变着我们的生活。 本文主要针对从事大数据开发的程序员们整理了整套的大数据学…
Hive使用摘要
之前有写过pandas和numpy的一些浅显的使用,没有系统的学习所有的API,基本上还是在够用的基础上,以后如果需要更复杂的数据需求再进一步研究吧。最近转做后台,之前在写numpy使用的时候立了个flag说要做一些有产…