标签：spark

Spark OFF_HEAP

在文章的开头，安利一下我自己的github上的一个项目：AlluxioBlockManager，同时还有我的github上的博客：blog 这个项目的作用是替代Spark2.0以前默认的TachyonBlockManag…

一、在Spark的安装包下的conf下创建一个文件 hive-site.xml，不需要更新到其他的节点，只需要在客户端有一份hive-site.xml就可以 <?xml version="1.0" encoding…

spark streaming的应用可能需要7*24小时不间断的运行,因此需要一定的容错能力。在系统出现问题后，spark streaming 应用能够从上次出错的地方重新开始。为此spark streaming提供了c…

1.DataSet相关概念 Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口，它结合了RDD API的很多优点（包括强类型，支持lambda表达式等），以及Spark SQL的优…

最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业，估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方…

Spark操作Hive数据库，实现数据表创建，数据加载，以及数据查询。实例代码如下： package com.spark.sql import org.apache.spark.sql.hive.HiveContext…

原理 Spark on YARN的原理就是依靠yarn来调度Spark，比默认的Spark运行模式性能要好的多，前提是首先部署好hadoop HDFS并且运行在yarn上，然后就可以开始部署spark on yarn了，…

版本： 2.3.3 版本兼容性 spark安装配置YARN 配置Hive 配置属性细节配置Spark 调整细节常见问题（绿色已解决，将从此列表中删除）推荐配置设计文档 Hive on Spark为Hive提供了…

在 maven 仓库中我们发现 spark -core 提供scala 2.12 版本的jar包下载，但是官网并没有声明支持2.12，官网是支持2.11 的，但是有时候我们还是需要在spark-submit 上支持 2.…

我的原创地址：https://dongkelun.com/2018/12/04/sparkHivePatition/ 前言前面学习总结了Hive分区表，现在学习总结一下Spark如何操作Hive分区表，包括利用Spar…

2018/04/07 自己知道的spark运行的四种模式，以一个计算hdfs中某文件（20G大小）的行数为例，这个文件的块集中在node3上。我的spark集群work是node1-3，master是node1。（具…

一.Spark是什么? Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所…