Spark-Exceptions java.lang.NoClassDefFoundError: org/apache/spark/Logging spark_jar org.apache.spark.scheduler…
分类:Spark
Spark Sql 之 cacheTable
1. 前言 spark sql中使用DataFrame/DataSet来抽象表示结构化数据(关系数据库中的table),DataSet上支持和RDD类似的操作,和RDD上的操作生成新的RDD一样,DataSet上的操作生…
2.安装Apache Spark 2.1
前言: cloudera自带的Spark版本较低,通过Apache Spark官网下载并安装Spark 2.1版本,分为单机和集群两种安装部署方式。 一、下载Spark 2.1 先查看hadoop版本,下面查询结果显示为…
在集群上运行spark
1.spark-submit提交任务 ./bin/spark-submit \ --class <main-class> --master <master-url> \ --deploy-mode…
Spark Streaming 和kafka 集成指导(kafka 0.8.2.1 或以上版本)
本节介绍一下如何配置Spark Streaming 来接收kafka的数据。有两个方法: 1、老的方法 -使用Receivers 和kafka的高级API 2、新的方法( Spark 1.3 开始引入)-不使用Recei…
深入理解Spark 2.1 Core (四):运算结果处理和容错的原理与源码分析
在上一篇博文《深入理解Spark 2.1 Core (三):任务调度器的实现与源码分析 》TaskScheduler在发送任务给executor前的工作就全部完成了。这篇博文,我们来看看当executor计算完任务后,S…
利用Akka获取Spark任务的返回结果
通过spark-submit提交的任务都需要指定Main类作为程序的入口,Main类执行结束即Spark任务终结。如果需要通过外部程序实时向Spark任务提交数据并获取结果又该如何呢? 思路很简单,让Spark任务的Ma…
Hadoop Hbase Spark 配置文档详解
hadoop 1.core-site.xml 1.fs.defaultFS hdfs默认端口 2.hadoop.tmp.dir Hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。它默认的…
Spark Streaming资源动态申请和动态控制消费速率原理剖析
Spark是粗粒度的,即在默认情况下会预先分配好资源,再进行计算。 好处是资源提前分配好,有计算任务时就直接使用计算资源,不用再考虑资源分配。 不好的地方是,高峰值和低峰值时需要的资源是不一样的。资源如果是针对高峰值情况…
Spark 实现MySQL update操作
背景 目前 spark 对 MySQL 的操作只有 Append,Overwrite,ErrorIfExists,Ignore几种表级别的模式,有时我们需要对表进行行级别的操作,比如update。即我们需要构造这样的语句…
[第四章] spark主备切换机制剖析
-主备切换机制剖析 前面几章,我们讲了spark通常有三种提交模式 1、独立部署模式standalone,spark自身有一套完整的资源管理方式 2、架构于hadoop之上的spark集群 3、架构于mesos之上的sp…
修改spark UI访问端口
默认情况下:当默认端口被占用,会自动加1 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分内容: if [ “$SPARK_MASTER_WEBUI_PO…