算法网 - 高质量的算法学习社区

Spark Streaming中的checkpoint

在编写Spark Streaming 程序的时候，往往需要我们自行设置checkpoint，那么它要如何设置，作用又是什么呢？其实， checkpoint的目的是保证长时间运行的任务在意外挂掉之后能够拉起的时候不丢失…

整合Kafka到Spark Streaming——代码示例和挑战 – stark_summer的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/st…

由于Mac上个星期烧了主板，修回来的电脑内容啥也没有了。为了学习和使用，需要再次安装大数据的相关工具，特此记录。根据自己平时的使用情况，先只安装了Hadoop、Spark、Kafka组件。使用到了brewhome，作为…

Spark Streaming集成Flume有两种方式，分别是基于Push的和基于Pull的，本篇文档参考Spark官网，基于Spark 2.2.0和Flume 1.6.0 Push-based 这种方式是Flume通过…

一、普通的Shuffl操作原理普通的Shuffle操作原理剖析二、优化后的Shuffle原理剖析优化后的Shuffle原理剖析

1.版本 system: windows10 jdk: 1.8.0_141 scala: 2.10.5 spark: spark-2.0.2-bin-hadoop2.6 IntelliJ: 15.0.6 2.基本环境安装…

1 从Shark到Spark SQL Spark SQL的前生是Shark，即Hive on Spark。Shark本质是通过Hive的HQL进行解析，将HiveQL翻译成Spark上对应的RDD操作，然后通过Hive的…

Spark2.x+Python大数据机器学习视频课程课程学习地址：http://www.xuetuwuyou.com/course/303 课程出自学途无忧网：http://www.xuetuwuyou.com 讲师：…

一、Hive数据类型 1.基本数据类型整数类型：tinyint/smallint/int/bigint 浮点数类型： float/double 布尔类型： boolean 字符串类型： string/char/varc…

org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient Logging initializedusing configuration in file:/…

简介人类正在从IT时代走向DT（Data Technology）的时代。以互联网、云计算、大数据和人工智能为代表的技术革命正在渗透至各行各业，改变着我们的生活。本文主要针对从事大数据开发的程序员们整理了整套的大数据学…

之前有写过pandas和numpy的一些浅显的使用，没有系统的学习所有的API，基本上还是在够用的基础上，以后如果需要更复杂的数据需求再进一步研究吧。最近转做后台，之前在写numpy使用的时候立了个flag说要做一些有产…