前言 最近为了解决Spark2.1的Bug,对Spark的源码做了不少修改,需要对修改的代码做编译测试,如果编译整个Spark项目快的话,也得半小时左右,所以基本上是改了哪个子项目就单独对那个项目编译打包。 Spark官…
标签:spark
Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 …
[转] Spark sql 内置配置(V2.2)
【From】 https://blog.csdn.net/u010990043/article/details/82842995 最近整理了一下spark SQL内置配。加粗配置项是对…
spark-sql cli 参数 及使用
很难找到spark-sql cli使用的教程,总结下一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-…
SparkSession - Spark SQL 的 入口
SparkSession – Spark SQL 的 入口 翻译自:https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spar…
梯度迭代树回归(GBDT)算法介绍及Spark MLlib调用实例(Scala/Java/python)
梯度迭代树回归 算法简介: 梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似,梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有dec…
Spark:将RDD[List[String,List[Person]]]中的List[Person]通过spark api保存为hdfs文件时一直出现not serializable task,没办法找到"spark自定义Kryo序列化输入输出API"
声明:本文转自《在Spark中自定义Kryo序列化输入输出API》 在Spark中内置支持两种系列化格式:(1)、Java serialization;(2)、Kryo serialization。在默…
scala 中下划线与星号 _*
1.变长参数 def sum(args:Int*): Unit ={ println("sum:",args.length,args.sum)}def main(args: Array[String]): Unit = …
spark 中文编码处理
日志的格式是GBK编码的,而hadoop上的编码是用UTF-8写死的,导致最终输出乱码。 研究了下Java的编码问题。 网上其实对spark输入文件是GBK编码有现成的解决方案,具体代码如下 import org.apa…
spark 变量使用 broadcast、accumulator
broadcast 官方文档描述: Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broa…
SPARK-SQL内置函数之字符串函数
转载请注明转自:http://www.cnblogs.com/feiyumo/p/8763186.html 1.concat对于字符串进行拼接 concat(str1, str2, …, strN…
Spark程序运行常见错误解决方法以及优化
一.org.apache.spark.shuffle.FetchFailedException 1.问题描述 这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行,一直循环下去,非常…