这篇文章具体描述了Spark Tungsten project 引入的新的内存管理机制,并且描述了一些使用细节。 前言 发现目前还没有这方面的文章,而自己也对这块比较好奇,所以就有了这篇内容。 分析方式基本是自下而上,也…
标签:spark
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十一)定制一个arvo格式文件发送到kafka的topic,通过Structured Streaming读取kafka的数据,Spark结构式流编程指南,Kafka 如何读取offset topic内容 (__consumer_offsets)
将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": "userlog", "fields": [ {"name": "ip","t…
Spark案例:通过并行化集合创建初始RDD
spark程序可以概括为一句话,所有的spark程序以读取数据开始,以处理数据为中心,以保存数据为结束。 读取数据可以从HDFS、本地文件或者并行化程序集合来创建,本案例是通过并行化集合来创建初始RDD。 java版本 …
Spark优化
Update: 找到文章的源头了,是美团公众号分享的一篇很给力的 Spark 性能优化的一些指导,链接再这里: https://tech.meituan.com/spark_tuning_basic.html 这篇文章近…
3.2 Spark调度机制
3.2 Spark调度机制 Spark调度机制是保证Spark应用高效执行的关键。本节从Application、job、stage和task的维度,从上层到底层来一步一步揭示Spark的调度策略。 3.2.1 Appli…
25,Spark Sort-Based Shuffle内幕彻底解密
一:为什么需要Sort-Based Shuffle? 1, Shuffle一般包含两个阶段任务: 第一部分:产生Shuffle数据的阶段(Map阶段,额外补充,需要实现ShuffleManager中的getW…
Spark新愿景:让深度学习变得更加易于使用
前言 Spark成功的实现了当年的承诺,让数据处理变得更容易,现在,雄心勃勃的Databricks公司展开了一个新的愿景:让深度学习变得更容易。 当然牛好吹,也是要做些实际行动的,所有便有了spark-deep-lear…
spark 2.3.1入门学习
基础环境 vi /etc/hosts 192.168.74.10 host196 192.168.74.29 host197 192.168.74.30 host198 安装jdk,zookeeper,hadoop 安装…
Spark On Yarn的各种Bug
今天将代码以Spark On Yarn Cluster的方式提交,遇到了很多很多问题.特地记录一下. 代码通过--master yarn-client提交是没有问题的,但是通过--master yarn-cluster总…
【博客存档】Machine Learning With Spark Note 5:构建聚类模型
构建聚类模型 在Machine Learning领域中,我们常会遇到聚类模型这个概念,和分类与回归模型不同,聚类model是属于无监督模型,无须label信息。 聚类模型在实际中有很多应用的case,比如: 对用户或者消…
spark 常见用户问题
1、spark sql join中条件里面不能带有不确定值的表达式,例如case when,coalesce等 2、spark sql 中表的别名一定要唯一,hive是可以的,但是处于规范性要做到唯一性处理 3、启动sp…
What's New in Apache Spark 2.4
Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。 新的调度模型(Barrier Scheduling),使用户能够将分布式深…