标签：spark

Spark各组件功能简单理解（quick start）

各个组件 conf/spark-env.sh 配置spark的环境变量 conf/spark-default.conf 配置spark应用默认的配置项和spark-env.sh有重合之处，可在提交应用时指定要用的配置文件…

下文以读取 parquet 文件 / parquet hive table 为例： hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMetastoreParq…

并继承了Scala REPL(读取-求值-打印-循环)(Read-Evaluate-Print-Loop)的所有功能。

一、背景在用户画像的系统中，需要将用户ID的拉通结果表和用户标签的结果表存入Hbase中。组件如下： 1. Spark 2.0 2. hbase 1.2 3. hadoop 2.6 因而提出以下几个问题： 1. 如何…

前言前段时间研究了SDL项目，看到了Spark的宏大愿景，写了篇Spark新愿景：让深度学习变得更加易于使用。后面看了TFoS,感觉很是巧妙，写了一篇TensorFlowOnSpark 源码解析。这些项目都得益于Spa…

当kafka中的数据丢失时，Spark程序消费kafka中数据的时候就可能会出现以下异常： Lost task 12.0 in stage 398.0 (TID 2311, localhost, executor dri…

配置 Configuration Default Value Meaning spark.driver.cores 1 Number of cores to use for the driver process, onl…

spark 2.X与1.x的区别 spark sql 2.x以上版本和1.x版本有个很大的区别：spark1.x的sqlContext在spark2.0中被整合到sparkSession，故而利用spark-shell客…

介绍 DataFrame是Spark推荐的统一结构化数据接口，基于DataFrame快速实现结构化数据的分析，详细使用教程在https://spark.apache.org/docs/latest/sql-program…

本文是一个如何使用Spark的简要教程。首先通过Spark的交互式Shell来介绍API（使用Python或Scala），然后展示如何用Java，Scala和Python来写Spark引用程序。更完整的内容请参考编程指南…

基本常识 Spark 2.0 时代全面到来 —— 2.0.1 版本发布 Spark生态系统中的图数据分析知识算法架构 Spark任务调度流程及调度策略分析 Spark rdd 转换过程 Spark计算过程分析可靠保证…

Custom Accumulator in Spark 2.1 Accumulator can sum or count number in spark tasks over all nodes, and then re…