Spark的一些基本情况如下: Spark:一个java web框架 License:Apache License 服务器:Jettry jre版本:8 github地址:https://github.com/perwe…
标签:spark
利用Spark SQL实现轻量级用户数据查询
简介 当人们把越来越多的大数据存储在HDFS或者AWS的S3上,通常下一个问题是如何让全公司范围的员工能够方便的查询这些数据。一个选项是建立一个SQL-on-Hadoop系统,让用户使用SQL或者类SQL语言来查询数据,…
《Spark指南》一、快速开始
本文主要翻译至链接且不局限于该文内容,也加入了笔者实践内容,翻译水平有限,欢迎指正,转载请注明出处。 本教程提供了使用Spark的快速介绍。 我们将首先通过Spark的交互式shell(在Python或Scala中)介绍…
Spark:Join相关优化文章
http://blog.csdn.net/lsshlsw/article/details/48975771 https://www.douban.com/note/499691663/ http://blog.csdn.…
spark 运行问题记录
在CDH5.5.2上运行spark1.5的程序,运行起来就直接shutdown,并报出如下的异常: INFO YarnClientSchedulerBackend: SchedulerBa…
【python】spark+kafka使用
网上用python写spark+kafka的资料好少啊 自己记录一点踩到的坑~ spark+kafka介绍的官方网址:http://spark.apache.org/docs/latest/streamin…
Spark计算均值
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用spark来快速计算分组的平均值,写法很便捷,话不多说上代码 object ColumnValueAvg exte…
Spark+Alluxio性能调优十大技巧
由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外,越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此,Alluxio常被用作…
8 个最好的 Java RESTful 框架
过去的每一年,涌现出越来越多的Java框架。就像JavaScript,每个人都认为他们知道一个好的框架的功能应该是怎么样的。连我的老祖母现在也使用 一个我从来没有听说过而且可能永远不会使用的框架。玩笑归玩笑,可以做几乎任…
Spark 2017欧洲技术峰会摘要(Spark 生态体系分类)
下载全部视频和PPT,请关注公众号(bigdata_summit),并点击“视频下载”菜单 A Tale of Two Graph Frameworks on Spark: GraphFrames and Tinkerp…
Spark RDD的基本特征以及源码解析
RDD是什么 RDD(Resilient Distributed Datasets)可扩展的弹性分布式数据集,rdd是spark最基本的数据抽象,是整个spark生态的基石。rdd表示一个只读、分区且不变的数据集合。一个…
Spark 学习笔记(四)-sparkSQL入门
入门 起点:SparkSession Spark中所有功能的入口点就是这个SparkSession类。要创建一个基本的SparkSession,只需使用SparkSession.builder(): import org…