环境部署 Spark2.1.0的Standalone模式部署 基本常识 spark中的rdd的持久化 Spark入门实战系列–9.Spark图计算GraphX介绍及实例 《Spark 官方文档》Spark S…
分类:Spark
Spark SQL日期加减,date_sub,date_add
val dateDF=spark.range(10) .withColumn("today",current_date()) .withColumn("now",current_timestamp()) dateDF.c…
马士兵spark学习
文档地址 http://mashibing.com/wiki/Spark 上传文件 解压 #cd training #tar -xvf spark-2.1.0-bin-hadoop2.7.tgz # rm -rf spa…
Java Spark 简单示例(六)Spark Streaming Window
大数据学习交流微信群 前两天分享的Flink 学习笔记中有介绍滚动窗口和滑动窗口。Spark Streaming也是支持的。 在 Java Spark 简单示例(五)Spark Streaming 演示了Spark St…
编写Spark程序的几个优化点
虽然spark已经提供了大量简单易用的API,但要想编写出高性能的spark应用,必须要对整体框架有一定的了解,对于Spark初学者来说是比较困难的。 针对这个这个问题,其实在spark1.6中,已经加入了dataset…
spark跟pandas数据转换
因为传统的机器学习是基于sklearn,xgboost,有着丰富分算法库,spark mlib不能满足所有的需求. spark来处理数据预处理和特征工程,sklearn,xgboost来训练. 需要spark和sklea…
Spark机器学习库(MLlib)开发指南(1)
机器学习库(MLlib)开发指南(1) 本文是翻译自官方文档,如有错误,欢迎指正。 原文 https://spark.apache.org/docs/latest/ml-guide.html MLlib是spark的机器…
Spark转化和行动操作
1.转化操作#### 对一个数据{1,2,3,3}的RDD进行基本的RDD转化操作 (1)map() 将函数应用于RDD中的每个元素,将返回新的RDD rdd.map(x => x+1) 返回{2,3,4,4 } …
Spark 动态资源分配(Dynamic Resource Allocation) 解析
Spark 默认采用的是资源预分配的方式。这其实也和按需做资源分配的理念是有冲突的。这篇文章会详细介绍Spark 动态资源分配原理。 前言 最近在使用Spark Streaming程序时,发现如下几个问题: 高峰和低峰S…
Spark RDD数据过滤
过滤RDD中的数据通过查看RDD的官方AIP,可以使用两种方法,filter和collect filter scala> val testRDD = sc.makeRDD(1 to 10) testRDD: org…
2018-04-17 大数据 spark
SPARK (Spark) 编辑 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类H…
Spark Multi Tenancy系列 - 3 项目简介
项目地址 A Fully HiveServer2-like Multi-tenancy Spark Thrift Server Supporting Impersonation and Multi-SparkContex…