梯度迭代树回归 算法简介: 梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似,梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有dec…
分类:Spark
Spark:将RDD[List[String,List[Person]]]中的List[Person]通过spark api保存为hdfs文件时一直出现not serializable task,没办法找到"spark自定义Kryo序列化输入输出API"
声明:本文转自《在Spark中自定义Kryo序列化输入输出API》 在Spark中内置支持两种系列化格式:(1)、Java serialization;(2)、Kryo serialization。在默…
scala 中下划线与星号 _*
1.变长参数 def sum(args:Int*): Unit ={ println("sum:",args.length,args.sum)}def main(args: Array[String]): Unit = …
spark 中文编码处理
日志的格式是GBK编码的,而hadoop上的编码是用UTF-8写死的,导致最终输出乱码。 研究了下Java的编码问题。 网上其实对spark输入文件是GBK编码有现成的解决方案,具体代码如下 import org.apa…
spark 变量使用 broadcast、accumulator
broadcast 官方文档描述: Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broa…
SPARK-SQL内置函数之字符串函数
转载请注明转自:http://www.cnblogs.com/feiyumo/p/8763186.html 1.concat对于字符串进行拼接 concat(str1, str2, …, strN…
Spark程序运行常见错误解决方法以及优化
一.org.apache.spark.shuffle.FetchFailedException 1.问题描述 这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行,一直循环下去,非常…
一行Spark代码的诞生记(深度剖析Spark架构)
大家好,我是一行Spark代码,我叫小小小蕉,不知道为毛,我爸爸大蕉和我妈妈大大蕉把我生的又瘦又长。长这样。 val sssjiao = new SparkContext( new SparkConf().setAppN…
好大的一片森林:Spark TreeModel源码分析(二)
model 1.1 Predict.scala class Predict( val predict: Double // 预测值 ,val prob: Double = 0.0 // 预测概率(分类) ) extend…
批量导入数据到hive表中:假设我有60张主子表如何批量创建导入数据
背景:根据业务需要需要把60张主子表批量入库到hive表。 创建测试数据: 1 def createBatchTestFile(): Unit = { 2 for (layer <- 0 to 59) { 3 va…
SparkSQL使用之Spark SQL CLI
Spark SQL CLI描述 Spark SQL CLI的引入使得在SparkSQL中通过hive metastore就可以直接对hive进行查询更加方便;当前版本中还不能使用Spark SQL CLI与ThriftS…
spark-submit 提交Application
在spark1.0中推出spark-submit来统一提交applicaiton ./bin/spark-submit \ --class <main-class> --master <ma…