一、概述 spark sql 是用于操作结构化数据的程序包 通过spark sql ,可以使用SQL 或者 HQL 来查询数据,查询结果以Dataset/DataFrame 的形式返回 它支持多种数据源,如Hive 表、…
标签:spark
Spark源码分析(1) RDD是什么
RDD是Spark的基础,是对大数据的抽象,所以先破解Spark,首先从RDD开始。 * RDD 是什么?有什么特点? * RDD 包含什么? * RDD 能做什么? 文尾有结论 RDD 的注释 org.apache.s…
WINDOWS 10环境下的Pyspark配置 (基于Anaconda环境,附加不重启情况下环境变量Path修改方式)
由于需要帮老婆完成课程作业,在ubuntu和win 10上都做了spark环境的配置,其中ubuntu环境的配置比较简单,网上教程也较多,但是win 10系统的教程中,往往忽略了很多问题,因此以下对win环境中的配置做一…
pyspark系列--pandas与pyspark对比
2018-10-18更新: 这篇文字有点老了,里面的很多方法是spark1.6版本,读者请注意。 pandas与pyspark对比 1. pandas和pyspark对比 1.1. 工作方式 1.2. 延迟机制 1.3.…
RDD浅谈
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感…
Spark性能优化指南——基础篇
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常…
spark知识点总结
说明:这篇文章是我的一位师兄写的,放上来只为了自己学习时参考,谢谢! 一、性能调优 1、分配资源 a、在我们在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数 /usr/…
深入浅出Spark(1)什么是Spark
今天开始我们将一起学习Sameer Farooqui在Spark summit 2015上分享的内容。本文是“深入浅出Spark”系列文章的第一篇,通过本篇文章我们将了解: 1. Spark是什么 2. Spark生态圈…
spark ML ,1概述:评估器,转换器和管道
spark.ml包目标是提供统一的高级别的API,这些高级API建立在DataFrame上,DataFrame帮助用户创建和调整实用的机器学习管道。在下面spark.ml子包指导中查看的算法指导部分,包含管道API独有的…
spark面试必须掌握的知识点概览
最近很多球友都说在准备面试,不知道准备点啥,尤其是spark,实际上星球里浪尖分享的内容真的都掌握了,应对一般面试绝对没问题,但是遗憾的事情是很多人都是处于不会主动搜集资料,主动梳理知识,主动记忆整理知识,而是伸手要粮的…
Spark环境部署篇
专栏其他相关文章:Spark SQL你不得不知道的那些事儿;Spark生态圈;Hive – 建立在Hadoop架构之上的数据仓库;数据仓库Hive的使用;分布式计算框架MapReduce;YARN 分布式资源…
Pyspark Word2Vec + jieba 训练词向量流程
摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程. 工具:python,pyspark,jieba,pandas,numpy 数据格式:自定义词典,…