datatime.date类 构造器 返回值类型 说明 (year, month, day) date 类方法/属性 .max date datetime.date…
标签:spark
spark读mysql数据
最近在学习中,需要用spark读取mysql数据,查阅了很多资料大多是java版本的,自己琢磨了半天,研究出python版本的,本人菜鸟,本博客只会记录学习过程,如有不妥请见谅。所用spark版本为1.4.1. 先上自己…
Spark源码分析 -- PairRDD
和一般RDD最大的不同就是有两个泛型参数, [K, V]表示pair的概念 关键的function是, combineByKey, 所有pair相关操作的抽象 combine是这样的操作, Turns an RDD[(K…
spark算法本地测试正常,放在集群上就出错的原因
最近在用一个算法做用户相关特征的提取,直接使用Java 调用Spark内置算法接口,进行数据的处理工作和特征提取,在本地测试正常,但是放到集群上面,总是跑到最后就提示各种错误,通道机一般报错界面如下: client to…
OpenSpark:一款好用的开箱即用Spark环境
简介 你是否遇到过每次开发大数据应用都要重新搭建Java/Hadoop/Spark环境的情况?是否想过自学和测试Spark应用却没有功能完整稳定可用的集群环境?是否有过实验室提供了性能强大的物理机却要自己折腾Hadoop…
Spark学习笔记-使用Spark History Server
在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是 说,Spark应用程序运行完后,将无法查看应用程序的历史记录。Spark hi…
Spark 1.6升级2.x测试
最近准备升级将生产环境chd5.7.1升级到cdh5.12.0并同时升级spark1.6到spark2.2. 在cdh5.12.0中可以部署两个spark parcels.输入spark2-shell可以运行spark2…
spark1.6迁移到spark2.2实践和新特性初探
1. 前言 如果你没用过1.6版本的Spark,看这篇文章会很轻松,直接关心2.2版本的特性就好。 先简单介绍下Spark的几个重要模块 Spark SQL用于处理结构化数据,可以用SQL查询,可以读写HIVE表和HDF…
Spark(十二)--性能调优篇
一段程序只能完成功能是没有用的,只能能够稳定、高效率地运行才是生成环境所需要的。 本篇记录了Spark各个角度的调优技巧,以备不时之需。 一、配置参数的方式和观察性能的方式 额。。。从最基本的开始讲,可能一些刚接触Spa…
2019秋招 | 大数据的面经(头条、阿里、美团)
作者:Commando20180403011197链接:https://www.nowcoder.com/discuss/142963来源:牛客网 面的公司并不多。拿到了头条和阿里的意向书,如果不出意外应该就是这俩选一个…
那些年我们对Spark RDD的理解
铺垫 在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的MapReduce作业之间数据共享只有一个办…
Spark
Spark 2.x管理与开发 ==========Spark Core========== 一、什么是Spark?(官网:http://spark.apache.org) 1、什么是Spark? 我的翻译:…