hadoop有文件系统HDFS,还有用来调度任务的YARN。而SPARK可以在YARN上开一个APPLICATION,然后提交一些JOB上去。 首先启动hadoop的hdfs和yarn,如下:start-dfs.shst…
标签:spark
Spark优化
Spark优化 worker 的资源分配:cpu, memroy, executors spark.yarn.executor.memoryOverhead, 0.1 * spark.executor.memory YA…
hadoop spark HA高可用集群搭建
方案 192.168.211.129 elastic (zookeeper、kafka、hadoop namenode、yarn resourcemanager、hbase hmaster、park master、es …
spark源码编译异常
今天下载了spark的2.3.1版本的源码,准备对spark的源码进行编译,结果抛了错误,具体如下: [ERROR] Failed to execute goal org.apache.maven.plugins:mav…
Spark Core 性能调优之配置进程参数
操作场景 Spark on YARN模式下,有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行的过程中,Dri…
jstorm和spark-streaming的区别
大部分时候大家在选择技术方案的时候还是比较迷茫,是该选择JStorm还是Spark Streaming? 一般会流于一些并不重要问题的讨论,最后做出目光非常短浅的选择,几个月之后再改变技术方案。造成严重的开发量的浪费,甚…
spark dataframe 如何保存到本地
在 Spark 2.x 里面,可以直接使用以下命令 df.write.format("csv").save(filepath)
spark调整日志显示级别
摘要 在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TRACE那么简单。 主…
python读取postgresql并进行spark处理
贴出一段程序,主要是对postgresql进行读取并进行spark处理 def operator(x): print(x[1]) x[2] =='kao' if x[4] =='male': x[4] =1 elif x…
寻找spark executor日志
本文将介绍spark on yarn模式下,怎样找到executor的日志。运行环境是基于HDP2.6.0.3-8版本。 引言 spark on yarn应用在运行时和完成后日志的存放位置是不同的,一般运行时是存放在各个…
Kafka Streams 还是 Spark Streaming
现在开源流处理框架越来越多,大家都熟知的有 Spark Streaming, NiFi, Flink等等。 Kafka Streams 也是其中一员。 那么在众多的流处理框架中,Kafka Streams 有哪些独特的优…
spark streaming 实时日志清洗和统计
1、数据处理加工模型 (1)输入:文件,数据库,消息队列 (2)处理:函数,sql,mapreduce,bolt,transform/action (3)输出:文件,数据库 2、spark简介 spark与hadoop开…