之前用的版本是zeppelin0.7.2和spark1.6,最近把zeppelin升级到0.8发现1.6的配置和2.2的配置默认都无法支持,大概会遇到3个问题。 Incompatible Jackson version:…
分类:Spark
Spark 操作hbase(构建一个支持更新和快速检索的数据库)
一、背景 在用户画像的系统中,需要将用户ID的拉通结果表和用户标签的结果表存入Hbase中。 组件如下: 1. Spark 2.0 2. hbase 1.2 3. hadoop 2.6 因而提出以下几个问题: 1. 如何…
为Spark Deep Learning 添加NLP处理实现
前言 前段时间研究了SDL项目,看到了Spark的宏大愿景,写了篇Spark新愿景:让深度学习变得更加易于使用。后面看了TFoS,感觉很是巧妙,写了一篇TensorFlowOnSpark 源码解析。这些项目都得益于Spa…
[SPARK-19680] OffsetOutOfRangeException 解决方案
当kafka中的数据丢失时,Spark程序消费kafka中数据的时候就可能会出现以下异常: Lost task 12.0 in stage 398.0 (TID 2311, localhost, executor dri…
Spark的Driver和ApplicationMaster进程核数设置之我见
配置 Configuration Default Value Meaning spark.driver.cores 1 Number of cores to use for the driver process, onl…
【2018-04-10】【2.1.1】spark sql操作mysql和hdfs
spark 2.X与1.x的区别 spark sql 2.x以上版本和1.x版本有个很大的区别:spark1.x的sqlContext在spark2.0中被整合到sparkSession,故而利用spark-shell客…
Spark DataFrame入门教程
介绍 DataFrame是Spark推荐的统一结构化数据接口,基于DataFrame快速实现结构化数据的分析,详细使用教程在https://spark.apache.org/docs/latest/sql-program…
[译]Spark快速开始
本文是一个如何使用Spark的简要教程。首先通过Spark的交互式Shell来介绍API(使用Python或Scala),然后展示如何用Java,Scala和Python来写Spark引用程序。更完整的内容请参考编程指南…
Spark相关文章索引(2)
基本常识 Spark 2.0 时代全面到来 —— 2.0.1 版本发布 Spark生态系统中的图数据分析知识 算法架构 Spark任务调度流程及调度策略分析 Spark rdd 转换过程 Spark计算过程分析 可靠保证…
Spark的fold()和aggregate()函数
转载请注明出处:http://www.jianshu.com/p/15739e95a46e @贰拾贰画生 最近在学习spark,理解这两个函数时候费了一些劲,现在记录一下。 1. rdd.fold(value)(func…
Custom Accumulator in Spark 2.1
Custom Accumulator in Spark 2.1 Accumulator can sum or count number in spark tasks over all nodes, and then re…
spark 学习笔记
Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parq…