在CDH5.5.2上运行spark1.5的程序,运行起来就直接shutdown,并报出如下的异常: INFO YarnClientSchedulerBackend: SchedulerBa…
分类:Spark
【python】spark+kafka使用
网上用python写spark+kafka的资料好少啊 自己记录一点踩到的坑~ spark+kafka介绍的官方网址:http://spark.apache.org/docs/latest/streamin…
Spark计算均值
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用spark来快速计算分组的平均值,写法很便捷,话不多说上代码 object ColumnValueAvg exte…
Spark+Alluxio性能调优十大技巧
由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外,越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此,Alluxio常被用作…
8 个最好的 Java RESTful 框架
过去的每一年,涌现出越来越多的Java框架。就像JavaScript,每个人都认为他们知道一个好的框架的功能应该是怎么样的。连我的老祖母现在也使用 一个我从来没有听说过而且可能永远不会使用的框架。玩笑归玩笑,可以做几乎任…
Spark 2017欧洲技术峰会摘要(Spark 生态体系分类)
下载全部视频和PPT,请关注公众号(bigdata_summit),并点击“视频下载”菜单 A Tale of Two Graph Frameworks on Spark: GraphFrames and Tinkerp…
Spark RDD的基本特征以及源码解析
RDD是什么 RDD(Resilient Distributed Datasets)可扩展的弹性分布式数据集,rdd是spark最基本的数据抽象,是整个spark生态的基石。rdd表示一个只读、分区且不变的数据集合。一个…
Spark:JavaRDD 转化为 Dataset的两种方案
JavaRDD 转化为 Dataset<Row>方案一: 实体类作为schema定义规范,使用反射,实现JavaRDD转化为Dataset<Row> Student.java实体类: import…
Spark ML 特征工程之 One-Hot Encoding
1.什么是One-Hot Encoding One-Hot Encoding 也就是独热码,直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。在机器学习(Logistic Regressi…
SparkSQL|日期函数
1. 计算 2个日期小时差 (unix_timestamp(qingjie_reg_time)-unix_timestamp(real_send_time))/3600 计算开始时间startdate到结束时间endda…
Spark Example
此文主要记录学习spark2.0例子的一些信息。 spark2基本不需要安装配置,直接装上scala就行。当然,有些example是依赖hadoop的hdfs的。因此你的机器上得先装好对应版本的hadoop。 spark…
2分钟读懂Hadoop和Spark的异同
2分钟读懂Hadoop和Spark的异同 反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,” Born说道。Spark的批处理速度比M…