分类：Spark

zeppelin 0.8环境和spark2.2问题

之前用的版本是zeppelin0.7.2和spark1.6，最近把zeppelin升级到0.8发现1.6的配置和2.2的配置默认都无法支持，大概会遇到3个问题。 Incompatible Jackson version:…

一、背景在用户画像的系统中，需要将用户ID的拉通结果表和用户标签的结果表存入Hbase中。组件如下： 1. Spark 2.0 2. hbase 1.2 3. hadoop 2.6 因而提出以下几个问题： 1. 如何…

前言前段时间研究了SDL项目，看到了Spark的宏大愿景，写了篇Spark新愿景：让深度学习变得更加易于使用。后面看了TFoS,感觉很是巧妙，写了一篇TensorFlowOnSpark 源码解析。这些项目都得益于Spa…

当kafka中的数据丢失时，Spark程序消费kafka中数据的时候就可能会出现以下异常： Lost task 12.0 in stage 398.0 (TID 2311, localhost, executor dri…

配置 Configuration Default Value Meaning spark.driver.cores 1 Number of cores to use for the driver process, onl…

spark 2.X与1.x的区别 spark sql 2.x以上版本和1.x版本有个很大的区别：spark1.x的sqlContext在spark2.0中被整合到sparkSession，故而利用spark-shell客…

介绍 DataFrame是Spark推荐的统一结构化数据接口，基于DataFrame快速实现结构化数据的分析，详细使用教程在https://spark.apache.org/docs/latest/sql-program…

本文是一个如何使用Spark的简要教程。首先通过Spark的交互式Shell来介绍API（使用Python或Scala），然后展示如何用Java，Scala和Python来写Spark引用程序。更完整的内容请参考编程指南…

基本常识 Spark 2.0 时代全面到来 —— 2.0.1 版本发布 Spark生态系统中的图数据分析知识算法架构 Spark任务调度流程及调度策略分析 Spark rdd 转换过程 Spark计算过程分析可靠保证…

转载请注明出处：http://www.jianshu.com/p/15739e95a46e @贰拾贰画生最近在学习spark，理解这两个函数时候费了一些劲，现在记录一下。 1. rdd.fold(value)(func…

Custom Accumulator in Spark 2.1 Accumulator can sum or count number in spark tasks over all nodes, and then re…

Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parq…