先前东看一个教程,西看一个教程,一直没有安装成功。后来搜到厦大林子雨老师团队的大数据教程,真是相当得棒。我是按照这篇博客《Spark 2.0分布式集群环境搭建(Python版)》进行安装和配置的。事毕,总结记录一下。 1…
分类:Spark
Spark基础性能优化
最开始接触Spark是我刚来摩拜实习的时候,组里有一个架构师(ccmeng1886)为了找工作把Spark的源码通读了三遍ORZ,还一直给我们灌输学好Spark就能拿高工资的思想。正好年末不是很忙,就接了一个非常简单的项…
RDD、DataFrame和Dataset 怎么选择才好?
最令开发者们高兴的事莫过于有一组API,可以大大提高开发者们的工作效率,容易使用、非常直观并且富有表现力。Apache Spark广受开发者们欢迎的一个重要原因也在于它那些非常容易使用的API,可以方便地通过多种语言,如…
舍弃Hive、拥抱SparkSQL,有赞的大数据实践
本文由 「AI前线」原创(ID:ai-front),原文链接:舍弃Hive、拥抱SparkSQL,有赞的大数据实践 作者 | 邹晨俊 来源 | 授权转载自微信公众号有赞Coder(ID:youzan_coder) 编辑 …
Spark常用算子
Spark的算子分类: 从大方向说,Spark算子大致可以分为以下两类: (1)Transformation变换/转换算子:这种变换并不触发提交作业,这种算子是延迟执行的,也就是说从一个RDD转换生成另一个RDD的转换操…
Spark+Hadoop分布式集群架设攻略
因为在准备kaggle的缘故,想尝试下使用spark MLlib来进行机器学习,换了台新电脑,和旧电脑一起搭一个集群玩一玩。master节点使用的是win10的系统,但是集群运行在win10的ubuntu bash里面,…
Spark任务提交方式和执行流程
一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资…
Spark性能优化指南——高级篇
前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有…
大数据基础【Task5】Spark常用API
spark集群搭建 初步认识Spark (解决什么问题,为什么比Hadoop快,基本组件及架构Driver/) 理解spark的RDD 使用shell方式操作Spark,熟悉RDD的基本操作 使用jupyter连接集群的…
Spark SQL
一、概述 spark sql 是用于操作结构化数据的程序包 通过spark sql ,可以使用SQL 或者 HQL 来查询数据,查询结果以Dataset/DataFrame 的形式返回 它支持多种数据源,如Hive 表、…
Spark源码分析(1) RDD是什么
RDD是Spark的基础,是对大数据的抽象,所以先破解Spark,首先从RDD开始。 * RDD 是什么?有什么特点? * RDD 包含什么? * RDD 能做什么? 文尾有结论 RDD 的注释 org.apache.s…
WINDOWS 10环境下的Pyspark配置 (基于Anaconda环境,附加不重启情况下环境变量Path修改方式)
由于需要帮老婆完成课程作业,在ubuntu和win 10上都做了spark环境的配置,其中ubuntu环境的配置比较简单,网上教程也较多,但是win 10系统的教程中,往往忽略了很多问题,因此以下对win环境中的配置做一…