标签：spark

使用sbt编译Spark子项目

前言最近为了解决Spark2.1的Bug，对Spark的源码做了不少修改，需要对修改的代码做编译测试，如果编译整个Spark项目快的话，也得半小时左右，所以基本上是改了哪个子项目就单独对那个项目编译打包。 Spark官…

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。 …

【From】 https://blog.csdn.net/u010990043/article/details/82842995 最近整理了一下spark SQL内置配。加粗配置项是对…

很难找到spark-sql cli使用的教程，总结下一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-…

SparkSession – Spark SQL 的入口翻译自：https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spar…

梯度迭代树回归算法简介：梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似，梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有dec…

声明：本文转自《在Spark中自定义Kryo序列化输入输出API》　在Spark中内置支持两种系列化格式：（1）、Java serialization；（2）、Kryo serialization。在默…

1.变长参数 def sum(args:Int*): Unit ={ println("sum:",args.length,args.sum)}def main(args: Array[String]): Unit = …

日志的格式是GBK编码的，而hadoop上的编码是用UTF-8写死的，导致最终输出乱码。研究了下Java的编码问题。网上其实对spark输入文件是GBK编码有现成的解决方案，具体代码如下 import org.apa…

broadcast 官方文档描述： Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broa…

转载请注明转自：http://www.cnblogs.com/feiyumo/p/8763186.html 1.concat对于字符串进行拼接 concat(str1, str2, …, strN…

一.org.apache.spark.shuffle.FetchFailedException 1.问题描述这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行，一直循环下去，非常…