标签：spark

spark是什么

hadoop有文件系统HDFS，还有用来调度任务的YARN。而SPARK可以在YARN上开一个APPLICATION，然后提交一些JOB上去。首先启动hadoop的hdfs和yarn，如下：start-dfs.shst…

Spark优化 worker 的资源分配：cpu, memroy, executors spark.yarn.executor.memoryOverhead, 0.1 * spark.executor.memory YA…

方案 192.168.211.129 elastic （zookeeper、kafka、hadoop namenode、yarn resourcemanager、hbase hmaster、park master、es …

今天下载了spark的2.3.1版本的源码，准备对spark的源码进行编译，结果抛了错误，具体如下： [ERROR] Failed to execute goal org.apache.maven.plugins:mav…

操作场景 Spark on YARN模式下，有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行的过程中，Dri…

大部分时候大家在选择技术方案的时候还是比较迷茫，是该选择JStorm还是Spark Streaming？一般会流于一些并不重要问题的讨论，最后做出目光非常短浅的选择，几个月之后再改变技术方案。造成严重的开发量的浪费，甚…

在 Spark 2.x 里面，可以直接使用以下命令 df.write.format("csv").save(filepath)

摘要在学习使用Spark的过程中，总是想对内部运行过程作深入的了解，其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息，那么如何进行合理设置呢，不复杂但也绝不是将一个INFO换为TRACE那么简单。主…

贴出一段程序，主要是对postgresql进行读取并进行spark处理 def operator(x): print(x[1]) x[2] =='kao' if x[4] =='male': x[4] =1 elif x…

本文将介绍spark on yarn模式下，怎样找到executor的日志。运行环境是基于HDP2.6.0.3-8版本。引言 spark on yarn应用在运行时和完成后日志的存放位置是不同的，一般运行时是存放在各个…

现在开源流处理框架越来越多，大家都熟知的有 Spark Streaming, NiFi, Flink等等。 Kafka Streams 也是其中一员。那么在众多的流处理框架中，Kafka Streams 有哪些独特的优…

1、数据处理加工模型（1）输入：文件，数据库，消息队列（2）处理：函数，sql，mapreduce，bolt，transform/action （3）输出：文件，数据库 2、spark简介 spark与hadoop开…