标签：spark

spark基本概念

我们知道Spark总是以集群的方式运行的，Standalone的部署方式是集群方式中最为精简的一种（另外的是Mesos和Yarn）。Standalone模式中，资源调度是自己实现的，是MS架构的集群模式，故存在单点故障问…

Spark将DataFrame进行一些列处理后，需要将之写入mysql，下面是实现过程 1.mysql的信息 mysql的信息我保存在了外部的配置文件，这样方便后续的配置添加。 1 //配置文件示例： 2 [hdfs@i…

spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存…

以下代码演示的是spark读取 text，csv，json，parquet格式的file 为dataframe，将dataframe保存为对应格式的文件 package com.jason.spark23 import…

1. mappartition的妙用本问主要想讲如何高效的使用mappartition。首先，说到mappartition大家肯定想到的是map和MapPartition的对比。网上这类教程很多了，以前浪尖也发过类似…

性能优化王道就是给更多资源！机器更多了，CPU更多了，内存更多了，性能和速度上的提升，是显而易见的。基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调…

从官网来copy过来的几种模式描述： Scala/Java Python Meaning SaveMode.ErrorIfExists(default) "error"(default) When saving a Da…

Hadoop生态大数据系统分为Yam、 HDFS、MapReduce计算框架。TensorFlow分布式相当于MapReduce计算框架，Kubernetes相当于Yam调度系统。TensorFlowOnSpark，利用…

这是个我想干很久的事情了。之前研究tensorflow on spark, DL4j 都没有成功。所以这里首先讲一下我做这件事情的流程。模型的部署，首先你得有一个模型。这里假设你有了一个keras模型，假设你保存了一个k…

spark-python版本依赖与三方模块方案更新：2018-9-21 推翻以前的方法，新方法是在每个节点安装相同的pytho环境更新：2018-10-25 2018-9-21 的更新中，发现还是无法使用虚拟环境，如…

package com.hand.study; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.ja…

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/Logging at java.lang.ClassLoader.d…