分类：Spark

梯度迭代树回归（GBDT）算法介绍及Spark MLlib调用实例（Scala/Java/python）

2024年2月12日 Spark 0条评论 210次阅读 0人点赞

梯度迭代树回归算法简介：梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似，梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有dec…

Spark:将RDD[List[String,List[Person]]]中的List[Person]通过spark api保存为hdfs文件时一直出现not serializable task，没办法找到"spark自定义Kryo序列化输入输出API"

2024年2月11日 Spark 0条评论 121次阅读 0人点赞

声明：本文转自《在Spark中自定义Kryo序列化输入输出API》　在Spark中内置支持两种系列化格式：（1）、Java serialization；（2）、Kryo serialization。在默…

scala 中下划线与星号 _*

2024年2月11日 Spark 0条评论 189次阅读 0人点赞

1.变长参数 def sum(args:Int*): Unit ={ println("sum:",args.length,args.sum)}def main(args: Array[String]): Unit = …

spark 中文编码处理

2024年2月11日 Spark 0条评论 110次阅读 0人点赞

日志的格式是GBK编码的，而hadoop上的编码是用UTF-8写死的，导致最终输出乱码。研究了下Java的编码问题。网上其实对spark输入文件是GBK编码有现成的解决方案，具体代码如下 import org.apa…

spark 变量使用 broadcast、accumulator

2024年2月11日 Spark 0条评论 96次阅读 0人点赞

broadcast 官方文档描述： Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broa…

SPARK-SQL内置函数之字符串函数

2024年2月11日 Spark 0条评论 677次阅读 0人点赞

转载请注明转自：http://www.cnblogs.com/feiyumo/p/8763186.html 1.concat对于字符串进行拼接 concat(str1, str2, …, strN…

Spark程序运行常见错误解决方法以及优化

2024年2月11日 Spark 0条评论 222次阅读 0人点赞

一.org.apache.spark.shuffle.FetchFailedException 1.问题描述这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行，一直循环下去，非常…

一行Spark代码的诞生记(深度剖析Spark架构)

2024年2月11日 Spark 0条评论 125次阅读 0人点赞

大家好，我是一行Spark代码，我叫小小小蕉，不知道为毛，我爸爸大蕉和我妈妈大大蕉把我生的又瘦又长。长这样。 val sssjiao = new SparkContext( new SparkConf().setAppN…

好大的一片森林：Spark TreeModel源码分析（二）

2024年2月11日 Spark 0条评论 114次阅读 0人点赞

model 1.1 Predict.scala class Predict( val predict: Double // 预测值 ,val prob: Double = 0.0 // 预测概率（分类） ) extend…

批量导入数据到hive表中：假设我有60张主子表如何批量创建导入数据

2024年2月10日 Spark 0条评论 123次阅读 0人点赞

背景：根据业务需要需要把60张主子表批量入库到hive表。创建测试数据： 1 def createBatchTestFile(): Unit = { 2 for (layer <- 0 to 59) { 3 va…

SparkSQL使用之Spark SQL CLI

2024年2月10日 Spark 0条评论 143次阅读 0人点赞

Spark SQL CLI描述 Spark SQL CLI的引入使得在SparkSQL中通过hive metastore就可以直接对hive进行查询更加方便；当前版本中还不能使用Spark SQL CLI与ThriftS…

spark-submit 提交Application

2024年2月10日 Spark 0条评论 59次阅读 0人点赞

在spark1.0中推出spark-submit来统一提交applicaiton ./bin/spark-submit \ --class <main-class> --master <ma…