分类：Spark

wrapper x64 版本发布到centos

背景：项目需要在spark任务提交服务器节点上自动提交任务到spark集群上。因此创建了一个固定时间监控任务项目，使用timer定时监控oracle数据库中是否有spark提交任务，如果有spark提交任务，就使用ja…

前言在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中，我们已经部署好了一个Spark的开发环境。在Spark集群 + Akka + Kafka + Scala 开发(2)…

一、启动脚本分析独立部署模式下，主要由master和slaves组成，master可以利用zk实现高可用性，其driver，work，app等信息可以持久化到zk上；slaves由一台至多台主机构成。Driver通过向…

目的是将phoenix做存储，spark做计算层。这样就结合了phoenix查询速度快和spark计算速度快的优点。在这里将Phoenix的表作为spark的RDD或者DataFrames来操作，并且将操作的结果写回ph…

转载请注明出处。更多文章请访问大数据随笔 – hadoop/spark/hive 1.概述数据准确性，稳定性，时效性是数据开发中需要重点关注的，一般称之为数据质量。保证数据质量往往会占用数据开发工程师的很…

启动之后发现slave上正常启动了DataNode,DataManager，但是过了几秒后发现DataNode被关闭以slave1上错误日期为例查看错误信息： more /opt/hadoop-2.9.0/logs/h…

建筑物配置信息： case class BuildingConfig(buildingid: String, building_height: Long, gridcount: Long, gis_display_nam…

checkpoint在spark中主要有两块应用：一块是在spark core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如HDFS）以便数据恢复；另外…

内存问题排查说完了 CPU 的问题排查，再说说内存的排查，通常，内存的问题就是 GC 的问题，因为 Java 的内存由 GC 管理。有2种情况，一种是内存溢出了，一种是内存没有溢出，但 GC 不健康。内存溢出的情况可…

1、安装jdk 2、安装idea 3、安装maven 4、安装scala windows下下载msi安装文件，因为当前spark使用的scala版本为 2.10.4…

1. HBase读写的方式概况主要分为：纯Java API读写HBase的方式； Spark读写HBase的方式； Flink读写HBase的方式； HBase通过Phoenix读写的方式；第一种方式是H…

参考https://community.hortonworks.com/questions/9265/how-can-i-add-configuration-files-to-a-spark-job-r.html If …