分类：Spark

Spark Exceptions

Spark-Exceptions java.lang.NoClassDefFoundError: org/apache/spark/Logging spark_jar org.apache.spark.scheduler…

1. 前言 spark sql中使用DataFrame/DataSet来抽象表示结构化数据（关系数据库中的table），DataSet上支持和RDD类似的操作，和RDD上的操作生成新的RDD一样，DataSet上的操作生…

前言： cloudera自带的Spark版本较低，通过Apache Spark官网下载并安装Spark 2.1版本，分为单机和集群两种安装部署方式。一、下载Spark 2.1 先查看hadoop版本，下面查询结果显示为…

1.spark-submit提交任务 ./bin/spark-submit \ --class <main-class> --master <master-url> \ --deploy-mode…

本节介绍一下如何配置Spark Streaming 来接收kafka的数据。有两个方法： 1、老的方法 -使用Receivers 和kafka的高级API 2、新的方法（ Spark 1.3 开始引入）-不使用Recei…

在上一篇博文《深入理解Spark 2.1 Core （三）：任务调度器的实现与源码分析》TaskScheduler在发送任务给executor前的工作就全部完成了。这篇博文，我们来看看当executor计算完任务后，S…

通过spark-submit提交的任务都需要指定Main类作为程序的入口，Main类执行结束即Spark任务终结。如果需要通过外部程序实时向Spark任务提交数据并获取结果又该如何呢？思路很简单，让Spark任务的Ma…

hadoop 1.core-site.xml 1.fs.defaultFS hdfs默认端口 2.hadoop.tmp.dir Hadoop.tmp.dir是hadoop文件系统依赖的基础配置，很多路径都依赖它。它默认的…

Spark是粗粒度的，即在默认情况下会预先分配好资源，再进行计算。好处是资源提前分配好，有计算任务时就直接使用计算资源，不用再考虑资源分配。不好的地方是，高峰值和低峰值时需要的资源是不一样的。资源如果是针对高峰值情况…

背景目前 spark 对 MySQL 的操作只有 Append,Overwrite,ErrorIfExists,Ignore几种表级别的模式，有时我们需要对表进行行级别的操作，比如update。即我们需要构造这样的语句…

-主备切换机制剖析前面几章，我们讲了spark通常有三种提交模式 1、独立部署模式standalone，spark自身有一套完整的资源管理方式 2、架构于hadoop之上的spark集群 3、架构于mesos之上的sp…

默认情况下：当默认端口被占用，会自动加1 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分内容： if [ “$SPARK_MASTER_WEBUI_PO…