标签：spark

Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理

　转载请注明出处：http://www.cnblogs.com/xiaodf/ 　　之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能，本文主要介绍Spar…

来自：http://blog.csdn.net/u012102306/article/details/51637366 资源参数调优了解完了Spark作业运行的基本原理之后，对…

http://hugh-wangp.iteye.com/blog/1612268 http://blog.csdn.net/opensure/article/details/46537969 使用静态分区，创…

http://spark.incubator.apache.org/ http://spark.incubator.apache.org/documentation.html http://ampcamp.berkele…

注重版权，尊重他人劳动转帖注明原文地址：http://www.cnblogs.com/vincent-hv/p/3316502.html Spark主要提供三种位置配置系统：环境变量：用来启动Spark…

今天在测试spark-sql运行在yarn上的过程中，无意间从日志中发现了一个问题： spark-sql --master yarn 14/12/29 15:23:17 INFO Client: Requesting a…

1、spark是什么？ Spark是基于内存计算的大数据并行计算框架。 1.1 Spark基于内存计算相比于MapReduce基于IO计算，提高了在大数据环境下数据处理的实时性。 1.2 高容错性和高可伸缩性与map…

1 Overview 这一块代码可以理解为 Spark 是如何实现一个基于 K8S 的调度器，来调度生成 Executor Pod 的。 2 分析 /path/to/spark/resource-managers/kub…

Spark自定义聚合函数UDAF的现成例子不多，我只找到两个比较有用的： Spark: Custom UDAF Example Apache Spark UserDefinedAggregateFunction comb…

分布式计算平台=分布式文件系统+分布式计算模型，我们通常讲的hadoop一般是指分布式计算平台的统称，分布式计算平台（hadoop）=分布式文件系统（HDFS）+分布式计算模型（MapReduce） Spark=分布式…

决策树算法介绍：决策树以及其集成算法是机器学习分类和回归问题中非常流行的算法。因其易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质被广泛使用。树集成算法如随机森林以及boosting算法几乎是解决分类…

网上提交 scala spark 任务的攻略非常多，官方文档其实也非常详细仔细的介绍了 spark-submit 的用法。但是对于 python 的提交提及得非常少，能查阅到的资料非常少导致是有非常多的坑需…