转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主要介绍Spar…
标签:spark
Spark:性能调优
来自:http://blog.csdn.net/u012102306/article/details/51637366 资源参数调优 了解完了Spark作业运行的基本原理之后,对…
Hive:动静态分区
http://hugh-wangp.iteye.com/blog/1612268 http://blog.csdn.net/opensure/article/details/46537969 使用静态分区,创…
Spark入门
http://spark.incubator.apache.org/ http://spark.incubator.apache.org/documentation.html http://ampcamp.berkele…
【译】Spark官方文档——Spark Configuration(Spark配置)
注重版权,尊重他人劳动 转帖注明原文地址:http://www.cnblogs.com/vincent-hv/p/3316502.html Spark主要提供三种位置配置系统: 环境变量:用来启动Spark…
Spark On Yarn中spark.yarn.jar属性的使用
今天在测试spark-sql运行在yarn上的过程中,无意间从日志中发现了一个问题: spark-sql --master yarn 14/12/29 15:23:17 INFO Client: Requesting a…
java使用spark/spark-sql处理schema数据
1、spark是什么? Spark是基于内存计算的大数据并行计算框架。 1.1 Spark基于内存计算 相比于MapReduce基于IO计算,提高了在大数据环境下数据处理的实时性。 1.2 高容错性和高可伸缩性 与map…
Spark Kubernetes 的源码分析系列 - scheduler
1 Overview 这一块代码可以理解为 Spark 是如何实现一个基于 K8S 的调度器,来调度生成 Executor Pod 的。 2 分析 /path/to/spark/resource-managers/kub…
Spark自定义聚合函数(UDAF)示例
Spark自定义聚合函数UDAF的现成例子不多,我只找到两个比较有用的: Spark: Custom UDAF Example Apache Spark UserDefinedAggregateFunction comb…
hadoop与spark
分布式计算平台=分布式文件系统+分布式计算模型,我们通常讲的hadoop一般是指分布式计算平台的统称, 分布式计算平台(hadoop)=分布式文件系统(HDFS)+分布式计算模型(MapReduce) Spark=分布式…
决策树算法简介及Spark MLlib调用
决策树 算法介绍: 决策树以及其集成算法是机器学习分类和回归问题中非常流行的算法。因其易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质被广泛使用。树集成算法如随机森林以及boosting算法几乎是解决分类…
Pyspark spark-submit 集群提交任务以及引入虚拟环境依赖包攻略
网上提交 scala spark 任务的攻略非常多,官方文档其实也非常详细仔细的介绍了 spark-submit 的用法。但是对于 python 的提交提及得非常少,能查阅到的资料非常少导致是有非常多的坑需…