各个组件 conf/spark-env.sh 配置spark的环境变量 conf/spark-default.conf 配置spark应用默认的配置项和spark-env.sh有重合之处,可在提交应用时指定要用的配置文件…
标签:spark
spark 读取 hdfs 数据分区规则
下文以读取 parquet 文件 / parquet hive table 为例: hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMetastoreParq…
spark-shell 深入解析
并继承了Scala REPL(读取-求值-打印-循环)(Read-Evaluate-Print-Loop)的所有功能。
Spark 操作hbase(构建一个支持更新和快速检索的数据库)
一、背景 在用户画像的系统中,需要将用户ID的拉通结果表和用户标签的结果表存入Hbase中。 组件如下: 1. Spark 2.0 2. hbase 1.2 3. hadoop 2.6 因而提出以下几个问题: 1. 如何…
为Spark Deep Learning 添加NLP处理实现
前言 前段时间研究了SDL项目,看到了Spark的宏大愿景,写了篇Spark新愿景:让深度学习变得更加易于使用。后面看了TFoS,感觉很是巧妙,写了一篇TensorFlowOnSpark 源码解析。这些项目都得益于Spa…
[SPARK-19680] OffsetOutOfRangeException 解决方案
当kafka中的数据丢失时,Spark程序消费kafka中数据的时候就可能会出现以下异常: Lost task 12.0 in stage 398.0 (TID 2311, localhost, executor dri…
Spark的Driver和ApplicationMaster进程核数设置之我见
配置 Configuration Default Value Meaning spark.driver.cores 1 Number of cores to use for the driver process, onl…
【2018-04-10】【2.1.1】spark sql操作mysql和hdfs
spark 2.X与1.x的区别 spark sql 2.x以上版本和1.x版本有个很大的区别:spark1.x的sqlContext在spark2.0中被整合到sparkSession,故而利用spark-shell客…
Spark DataFrame入门教程
介绍 DataFrame是Spark推荐的统一结构化数据接口,基于DataFrame快速实现结构化数据的分析,详细使用教程在https://spark.apache.org/docs/latest/sql-program…
[译]Spark快速开始
本文是一个如何使用Spark的简要教程。首先通过Spark的交互式Shell来介绍API(使用Python或Scala),然后展示如何用Java,Scala和Python来写Spark引用程序。更完整的内容请参考编程指南…
Spark相关文章索引(2)
基本常识 Spark 2.0 时代全面到来 —— 2.0.1 版本发布 Spark生态系统中的图数据分析知识 算法架构 Spark任务调度流程及调度策略分析 Spark rdd 转换过程 Spark计算过程分析 可靠保证…
Custom Accumulator in Spark 2.1
Custom Accumulator in Spark 2.1 Accumulator can sum or count number in spark tasks over all nodes, and then re…