分类：Spark

Spark学习笔记1--Scala

spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存…

以下代码演示的是spark读取 text，csv，json，parquet格式的file 为dataframe，将dataframe保存为对应格式的文件 package com.jason.spark23 import…

1. mappartition的妙用本问主要想讲如何高效的使用mappartition。首先，说到mappartition大家肯定想到的是map和MapPartition的对比。网上这类教程很多了，以前浪尖也发过类似…

性能优化王道就是给更多资源！机器更多了，CPU更多了，内存更多了，性能和速度上的提升，是显而易见的。基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调…

从官网来copy过来的几种模式描述： Scala/Java Python Meaning SaveMode.ErrorIfExists(default) "error"(default) When saving a Da…

Hadoop生态大数据系统分为Yam、 HDFS、MapReduce计算框架。TensorFlow分布式相当于MapReduce计算框架，Kubernetes相当于Yam调度系统。TensorFlowOnSpark，利用…

这是个我想干很久的事情了。之前研究tensorflow on spark, DL4j 都没有成功。所以这里首先讲一下我做这件事情的流程。模型的部署，首先你得有一个模型。这里假设你有了一个keras模型，假设你保存了一个k…

spark-python版本依赖与三方模块方案更新：2018-9-21 推翻以前的方法，新方法是在每个节点安装相同的pytho环境更新：2018-10-25 2018-9-21 的更新中，发现还是无法使用虚拟环境，如…

package com.hand.study; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.ja…

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/Logging at java.lang.ClassLoader.d…

前言在国内编译Spark项目需要从Maven源下载很多依赖包，官方源在国内大环境下的下载速度大家都懂得，那个煎熬啊，简直是浪费生命。如果你的下载速度很快，你现在就可以无视这篇文章了。阿里云给国内开发者提供了一个非常…

Tokenizer （分词器）算法介绍： Tokenization将文本划分为独立个体（通常为单词）。 RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下，参数“pattern”为划分文本的分隔符…