大家好,我是一行Spark代码,我叫小小小蕉,不知道为毛,我爸爸大蕉和我妈妈大大蕉把我生的又瘦又长。长这样。 val sssjiao = new SparkContext( new SparkConf().setAppN…
标签:spark
好大的一片森林:Spark TreeModel源码分析(二)
model 1.1 Predict.scala class Predict( val predict: Double // 预测值 ,val prob: Double = 0.0 // 预测概率(分类) ) extend…
批量导入数据到hive表中:假设我有60张主子表如何批量创建导入数据
背景:根据业务需要需要把60张主子表批量入库到hive表。 创建测试数据: 1 def createBatchTestFile(): Unit = { 2 for (layer <- 0 to 59) { 3 va…
SparkSQL使用之Spark SQL CLI
Spark SQL CLI描述 Spark SQL CLI的引入使得在SparkSQL中通过hive metastore就可以直接对hive进行查询更加方便;当前版本中还不能使用Spark SQL CLI与ThriftS…
spark-submit 提交Application
在spark1.0中推出spark-submit来统一提交applicaiton ./bin/spark-submit \ --class <main-class> --master <ma…
Openfire+Spark+Spark Web安装配置(一)
一、 安装环境 操作系统:Windows XP Prefessional SP2 服务器软件:Openfire 3.4.2 …
spark运行模式之一:Spark的local模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalon…
Spark:spark df插入hive表后小文件数量多,如何合并?
在做spark开发过程中,时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题。 一般情况下通过hive的参数设置: val conf = new SparkConf().setAppName("M…
【Hadoop篇】--Hadoop常用命令总结
一、前述 分享一篇hadoop的常用命令的总结,将常用的Hadoop命令总结如下。 二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不…
基于 Docker 构建 Hadoop 平台
基于Docker的Hadoop集群构建 0. 绪论 使用Docker搭建Hadoop技术平台,包括安装Docker、Java、Scala、Hadoop、 Hbase、Spark。 集群共有5台机器,主机名分别为 h01、…
spark 常用函数介绍(python)
以下是个人理解,一切以官网文档为准。 http://spark.apache.org/docs/latest/api/python/pyspark.html 在开始之前,我先介绍一下,RDD是什么? &nb…
Spark性能调优之资源分配
Spark性能调优之资源分配 性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是…