标签：spark

Spark Tungsten in-heap / off-heap 内存管理机制

这篇文章具体描述了Spark Tungsten project 引入的新的内存管理机制，并且描述了一些使用细节。前言发现目前还没有这方面的文章，而自己也对这块比较好奇，所以就有了这篇内容。分析方式基本是自下而上，也…

将arvo格式数据发送到kafka的topic 第一步：定制avro schema: { "type": "record", "name": "userlog", "fields": [ {"name": "ip","t…

spark程序可以概括为一句话，所有的spark程序以读取数据开始，以处理数据为中心，以保存数据为结束。读取数据可以从HDFS、本地文件或者并行化程序集合来创建，本案例是通过并行化集合来创建初始RDD。 java版本 …

Update: 找到文章的源头了，是美团公众号分享的一篇很给力的 Spark 性能优化的一些指导，链接再这里: https://tech.meituan.com/spark_tuning_basic.html 这篇文章近…

3.2 Spark调度机制 Spark调度机制是保证Spark应用高效执行的关键。本节从Application、job、stage和task的维度，从上层到底层来一步一步揭示Spark的调度策略。 3.2.1 Appli…

一：为什么需要Sort-Based Shuffle? 1， Shuffle一般包含两个阶段任务：第一部分：产生Shuffle数据的阶段(Map阶段，额外补充，需要实现ShuffleManager中的getW…

前言 Spark成功的实现了当年的承诺，让数据处理变得更容易，现在，雄心勃勃的Databricks公司展开了一个新的愿景：让深度学习变得更容易。当然牛好吹，也是要做些实际行动的，所有便有了spark-deep-lear…

基础环境 vi /etc/hosts 192.168.74.10 host196 192.168.74.29 host197 192.168.74.30 host198 安装jdk,zookeeper,hadoop 安装…

今天将代码以Spark On Yarn Cluster的方式提交,遇到了很多很多问题.特地记录一下. 代码通过--master yarn-client提交是没有问题的,但是通过--master yarn-cluster总…

构建聚类模型在Machine Learning领域中，我们常会遇到聚类模型这个概念，和分类与回归模型不同，聚类model是属于无监督模型，无须label信息。聚类模型在实际中有很多应用的case，比如：对用户或者消…

1、spark sql join中条件里面不能带有不确定值的表达式，例如case when,coalesce等 2、spark sql 中表的别名一定要唯一，hive是可以的，但是处于规范性要做到唯一性处理 3、启动sp…

Apache Spark 2.4 版本是 2.x 系列的第五个版本。本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型（Barrier Scheduling），使用户能够将分布式深…