标签：spark

一行Spark代码的诞生记(深度剖析Spark架构)

大家好，我是一行Spark代码，我叫小小小蕉，不知道为毛，我爸爸大蕉和我妈妈大大蕉把我生的又瘦又长。长这样。 val sssjiao = new SparkContext( new SparkConf().setAppN…

model 1.1 Predict.scala class Predict( val predict: Double // 预测值 ,val prob: Double = 0.0 // 预测概率（分类） ) extend…

背景：根据业务需要需要把60张主子表批量入库到hive表。创建测试数据： 1 def createBatchTestFile(): Unit = { 2 for (layer <- 0 to 59) { 3 va…

Spark SQL CLI描述 Spark SQL CLI的引入使得在SparkSQL中通过hive metastore就可以直接对hive进行查询更加方便；当前版本中还不能使用Spark SQL CLI与ThriftS…

在spark1.0中推出spark-submit来统一提交applicaiton ./bin/spark-submit \ --class <main-class> --master <ma…

一、安装环境操作系统：Windows XP Prefessional SP2 服务器软件：Openfire 3.4.2 …

Spark运行模式 Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在 Yarn和 Mesos 中，当然 Spark 还有自带的 Standalon…

　　在做spark开发过程中，时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题。一般情况下通过hive的参数设置： val conf = new SparkConf().setAppName("M…

一、前述分享一篇hadoop的常用命令的总结，将常用的Hadoop命令总结如下。二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不…

基于Docker的Hadoop集群构建 0. 绪论使用Docker搭建Hadoop技术平台，包括安装Docker、Java、Scala、Hadoop、 Hbase、Spark。集群共有5台机器，主机名分别为 h01、…

以下是个人理解，一切以官网文档为准。 http://spark.apache.org/docs/latest/api/python/pyspark.html 在开始之前，我先介绍一下，RDD是什么？ &nb…

Spark性能调优之资源分配性能优化王道就是给更多资源！机器更多了，CPU更多了，内存更多了，性能和速度上的提升，是显而易见的。基本上，在一定范围之内，增加资源与性能的提升，是…