在文章的开头,安利一下我自己的github上的一个项目:AlluxioBlockManager,同时还有我的github上的博客:blog 这个项目的作用是替代Spark2.0以前默认的TachyonBlockManag…
标签:spark
sparkSql和hive的整合(spark on hive)
一、在Spark的安装包下的conf下创建一个文件 hive-site.xml,不需要更新到其他的节点,只需要在客户端有一份hive-site.xml就可以 <?xml version="1.0" encoding…
spark streaming checkpointing 踩坑记
spark streaming的应用可能需要7*24小时不间断的运行,因此需要一定的容错能力。在系统出现问题后,spark streaming 应用能够从上次出错的地方重新开始。为此spark streaming提供了c…
Spark-DataSet学习
1.DataSet相关概念 Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口,它结合了RDD API的很多优点(包括强类型,支持lambda表达式等),以及Spark SQL的优…
Hadoop、Spark、HBase与Redis的适用性讨论
最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方…
Spark实例-操作Hive数据
Spark操作Hive数据库,实现数据表创建,数据加载,以及数据查询。 实例代码如下: package com.spark.sql import org.apache.spark.sql.hive.HiveContext…
spark on yarn 搭建
原理 Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前提是首先部署好hadoop HDFS并且运行在yarn上,然后就可以开始部署spark on yarn了,…
Hive on Spark
版本: 2.3.3 版本兼容性 spark安装 配置YARN 配置Hive 配置属性细节 配置Spark 调整细节 常见问题(绿色已解决,将从此列表中删除) 推荐配置 设计文档 Hive on Spark为Hive提供了…
如何让spark 2.4 支持scala 2.12
在 maven 仓库中我们发现 spark -core 提供scala 2.12 版本的jar包下载,但是官网并没有声明支持2.12,官网是支持2.11 的,但是有时候我们还是需要在spark-submit 上支持 2.…
Spark操作Hive分区表
我的原创地址:https://dongkelun.com/2018/12/04/sparkHivePatition/ 前言 前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spar…
Spark运行模式
2018/04/07 自己知道的spark运行的四种模式,以一个计算hdfs中某文件(20G大小)的行数为例,这个文件的块集中在node3上。 我的spark集群work是node1-3,master是node1。 (具…
spark 基础知识整理(一)
一.Spark是什么? Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所…