分类：Spark

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（七）针对hadoop2.9.0启动DataManager失败问题

DataManager启动失败启动过程中发现一个问题：slave1,slave2,slave3都是只启动了DataNode，而DataManager并没有启动： [spark@slave1 hadoop-2.9.0]$…

下载全部视频和PPT，请关注公众号(bigdata_summit)，并点击“视频下载”菜单 Apache Spark Pipelines in the Cloud with Alluxio by Gene Pang, A…

Spark源码是利用Scala编写，因此用Scala编写Spark程序具有天然的优势，但目前Java仍是主流语言，且Scala和Java程序都是运行在JVM上的。使用JDK8的Lamda expression和Scala…

字符串函数 1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数 1. 字符串拼接 from pyspark.sql.function…

决策树回归算法介绍：决策树以及其集成算法是机器学习分类和回归问题中非常流行的算法。因其易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质被广泛使用。树集成算法如随机森林以及boosting算法几乎是解决…

一.spark 分区 partition的理解： spark中是以vcore级别调度task的。如果读取的是hdfs，那么有多少个block，就有多少个partition 举例来说：sparksql 要读表T, 如果表…

Spark SQL内置函数官网API：http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24 …

代码示例： val sample_data_combine_result=List( (0,(List(FitModel(4022,1447.92,-8.38983306721434,2.0)),1)), (1,(Lis…

很多时候在流数据处理时，我们会将avro格式的数据写入到kafka的topic，但是avro写入到kafka的时候，数据有可能会与版本升级，也就是schema发生变化，此时如果消费端，不知道哪些数据的schema是使用升…

　　上一篇里我提到可以把RDD当作一个数组，这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。　　Spark是一个计算框架，是对mapreduc…

　　本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家可以就把RDD当作一个数组，这样…

创建SparkSession和SparkContext val spark = SparkSession.builder.master("local").getOrCreate() val sc = spark.spar…