标签：spark

python模块--datetime

datatime.date类构造器返回值类型说明 (year, month, day) date 类方法/属性 .max date datetime.date…

最近在学习中，需要用spark读取mysql数据，查阅了很多资料大多是java版本的，自己琢磨了半天，研究出python版本的，本人菜鸟，本博客只会记录学习过程，如有不妥请见谅。所用spark版本为1.4.1. 先上自己…

和一般RDD最大的不同就是有两个泛型参数, [K, V]表示pair的概念关键的function是, combineByKey, 所有pair相关操作的抽象 combine是这样的操作, Turns an RDD[(K…

最近在用一个算法做用户相关特征的提取，直接使用Java 调用Spark内置算法接口，进行数据的处理工作和特征提取，在本地测试正常，但是放到集群上面，总是跑到最后就提示各种错误，通道机一般报错界面如下： client to…

简介你是否遇到过每次开发大数据应用都要重新搭建Java/Hadoop/Spark环境的情况？是否想过自学和测试Spark应用却没有功能完整稳定可用的集群环境？是否有过实验室提供了性能强大的物理机却要自己折腾Hadoop…

在运行Spark应用程序的时候，driver会提供一个webUI给出应用程序的运行信息，但是该webUI随着应用程序的完成而关闭端口，也就是说，Spark应用程序运行完后，将无法查看应用程序的历史记录。Spark hi…

最近准备升级将生产环境chd5.7.1升级到cdh5.12.0并同时升级spark1.6到spark2.2. 在cdh5.12.0中可以部署两个spark parcels.输入spark2-shell可以运行spark2…

1. 前言如果你没用过1.6版本的Spark，看这篇文章会很轻松，直接关心2.2版本的特性就好。先简单介绍下Spark的几个重要模块 Spark SQL用于处理结构化数据，可以用SQL查询，可以读写HIVE表和HDF…

一段程序只能完成功能是没有用的，只能能够稳定、高效率地运行才是生成环境所需要的。本篇记录了Spark各个角度的调优技巧，以备不时之需。一、配置参数的方式和观察性能的方式额。。。从最基本的开始讲，可能一些刚接触Spa…

作者：Commando20180403011197链接：https://www.nowcoder.com/discuss/142963来源：牛客网面的公司并不多。拿到了头条和阿里的意向书，如果不出意外应该就是这俩选一个…

铺垫在hadoop中一个独立的计算，例如在一个迭代过程中，除可复制的文件系统（HDFS）外没有提供其他存储的概念，这就导致在网络上进行数据复制而增加了大量的消耗，而对于两个的MapReduce作业之间数据共享只有一个办…

Spark 2.x管理与开发 ==========Spark Core========== 一、什么是Spark？（官网：http://spark.apache.org） 1、什么是Spark？我的翻译：…