spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存…
分类:Spark
spark 读写text,csv,json,parquet
以下代码演示的是spark读取 text,csv,json,parquet格式的file 为dataframe, 将dataframe保存为对应格式的文件 package com.jason.spark23 import…
如何高效使用Spark的mappartition
1. mappartition的妙用 本问主要想讲如何高效的使用mappartition。 首先,说到mappartition大家肯定想到的是map和MapPartition的对比。网上这类教程很多了,以前浪尖也发过类似…
Spark性能调优之资源分配
性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后, 进行性能调…
spark sql中保存数据的几种方式
从官网来copy过来的几种模式描述: Scala/Java Python Meaning SaveMode.ErrorIfExists(default) "error"(default) When saving a Da…
学习笔记TF065:TensorFlowOnSpark
Hadoop生态大数据系统分为Yam、 HDFS、MapReduce计算框架。TensorFlow分布式相当于MapReduce计算框架,Kubernetes相当于Yam调度系统。TensorFlowOnSpark,利用…
keras, tensorflow模型部署通过jar包部署到spark环境攻略
这是个我想干很久的事情了。之前研究tensorflow on spark, DL4j 都没有成功。所以这里首先讲一下我做这件事情的流程。模型的部署,首先你得有一个模型。这里假设你有了一个keras模型,假设你保存了一个k…
spark-python版本依赖与三方模块方案
spark-python版本依赖与三方模块方案 更新:2018-9-21 推翻以前的方法,新方法是在每个节点安装相同的pytho环境 更新:2018-10-25 2018-9-21 的更新中,发现还是无法使用虚拟环境,如…
Spark的Java API例子详解
package com.hand.study; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.ja…
java.lang.NoClassDefFoundError: org/apache/spark/Logging
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/Logging at java.lang.ClassLoader.d…
使用阿里云的Maven仓库加速Spark编译过程
前言 在国内编译Spark项目需要从Maven源下载很多依赖包,官方源在国内大环境下的下载速度大家都懂得,那个煎熬啊,简直是浪费生命。 如果你的下载速度很快,你现在就可以无视这篇文章了。 阿里云给国内开发者提供了一个非常…
Spark MLlib 数据预处理-特征变换(一)
Tokenizer (分词器) 算法介绍: Tokenization将文本划分为独立个体(通常为单词)。 RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符…