spark - 算法网

Spark 2.2 内存占用计算公式

在Spark内存管理调优中，我们需要重点关注的有两类内存：ExecutionMemory and storageMemory。ExecutionMemory用于spark计算中的shuffles、 joins、…

在深入介绍不同实现的指标和结论之前，首先需要对不同处理类型的概念进行一个简单的介绍。 1.批处理系统　　批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集，并在计算过程完成后返回结果。　　批处理模式中使…

【前言】在使用Spark MLlib协同过滤ALS API的时候发现Rating的三个参数：用户id，商品名称，商品打分，前两个都需要是Int值。那么问题来了，当你的用户id，商品名称是String类型的情况下，我们必须…

文章目录前言一、下载资源二、本地配置步骤 1.解压 2.引入本地环境 3.启动HADOOP文件 4.进行Spark测试三、IDEA引入Spark项目 1.idea按照scala插件 2.新建scala项目 3.配…

spark中RDD 的依赖关系 1、RDD 的依赖 RDD 和它依赖的父RDD 的关系有两种不同的类型，即窄依赖（ narrowdependency）和宽依赖（wide dependency）。 2、窄依赖窄依赖指的…

利用spark-shell来编程 spark-shell –master spark://hadoop01:7077 已经初始化好了SparkContext sc 回顾wo…

摘要我们设计并实现了 Google GFS 文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。 GFS 虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。…

我们在之前的文章中已经了解了 spark支持的模式，其中一种就是使用k8s进行管理。 hadoop组件—spark—-全面了解spark以及与hadoop的区别是时候考虑让你的 Spark 跑在K8s …

项目开发中有这样的需求，原始数据如下： +--------+-----------+ | name| message| +--------+-----------+ |zhangsan| 4=18,33=78| | li…

1. Spark 集群结构名词解释 Driver 该进程调用 Spark 程序的 main 方法, 并且启动 SparkContext Cluster Manager 该进程负责和外部集群工具打交道, 申请或释放集群资…

本文为数盟特约作者投稿，欢迎转载，请注明出处“数盟社区”和作者博主简介：段石石，1号店精准化推荐算法工程师，主要负责1号店用户画像构建，喜欢钻研点Machine Learning的黑科技，对Deep Learning感…

本文为数盟特约作者投稿，欢迎转载，请注明出处“数盟社区”和作者博主简介：段石石，1号店精准化推荐算法工程师，主要负责1号店用户画像构建，喜欢钻研点Machine Learning的黑科技，对Deep Learning感…