在Spark内存管理调优中,我们需要重点关注的有两类内存:ExecutionMemory and storageMemory。ExecutionMemory用于spark计算中的shuffles、 joins、…
标签:spark
【大数据】计算引擎之二:数据处理三种类型
在深入介绍不同实现的指标和结论之前,首先需要对不同处理类型的概念进行一个简单的介绍。 1.批处理系统 批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。 批处理模式中使…
【Spark MLlib】如何将海量字符串映射为数字——StringIndexer & IndexToString
【前言】在使用Spark MLlib协同过滤ALS API的时候发现Rating的三个参数:用户id,商品名称,商品打分,前两个都需要是Int值。那么问题来了,当你的用户id,商品名称是String类型的情况下,我们必须…
Windows下的Spark环境配置(含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目)
文章目录 前言 一、下载资源 二、本地配置步骤 1.解压 2.引入本地环境 3.启动HADOOP文件 4.进行Spark测试 三、IDEA引入Spark项目 1.idea按照scala插件 2.新建scala项目 3.配…
spark中RDD 的依赖关系
spark中RDD 的依赖关系 1、RDD 的依赖 RDD 和它依赖的父RDD 的关系有两种不同的类型, 即窄依赖( narrowdependency)和宽依赖(wide dependency)。 2、窄依赖 窄依赖指的…
Spark词频统计的三种方式
利用spark-shell来编程 spark-shell –master spark://hadoop01:7077 已经初始化好了SparkContext sc 回顾wo…
开启大数据时代谷歌三篇论文-GFS
摘要 我们设计并实现了 Google GFS 文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。 GFS 虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的 服务。…
hadoop组件---spark理论----spark on k8s模式的三种方式全面了解
我们在之前的文章中 已经了解了 spark支持的模式,其中一种就是 使用k8s进行管理。 hadoop组件—spark—-全面了解spark以及与hadoop的区别 是时候考虑让你的 Spark 跑在K8s …
SparkSQL一行转多行 一列变多列 多行转一行
项目开发中有这样的需求,原始数据如下: +--------+-----------+ | name| message| +--------+-----------+ |zhangsan| 4=18,33=78| | li…
Spark 集群搭建(完整)
1. Spark 集群结构 名词解释 Driver 该进程调用 Spark 程序的 main 方法, 并且启动 SparkContext Cluster Manager 该进程负责和外部集群工具打交道, 申请或释放集群资…
【投稿】Machine Learning With Spark Note 2:构建简单的推荐系统
本文为数盟特约作者投稿,欢迎转载,请注明出处“数盟社区”和作者 博主简介:段石石,1号店精准化推荐算法工程师,主要负责1号店用户画像构建,喜欢钻研点Machine Learning的黑科技,对Deep Learning感…
【投稿】Machine Learning With Spark Note 1:数据基本处理
本文为数盟特约作者投稿,欢迎转载,请注明出处“数盟社区”和作者 博主简介:段石石,1号店精准化推荐算法工程师,主要负责1号店用户画像构建,喜欢钻研点Machine Learning的黑科技,对Deep Learning感…