今天,星球里有个妹子问了一个问题,主要是spark官网说了这么段话: 在gc的统计信息中,如果老年代接近满了, 减少用于缓存的内存(通过减小spark.memory.Fraction)。 缓存较少的对象比降低运行速度对我…
分类:Spark
Spark编程快速入门
本教程基于Spark官网的快速入门教程改编而来,官方文档和中文翻译的传送门见最下方。(注意,实际情况可能因为版本不同等原因有所不同) 如果对本文中的一些名词感到疑惑,可以看另外一篇入门文章:五分钟大数据:Spark入门 …
Spark连接MongoDB之Scala
MongoDB Connector for Spark Spark Connector Scala Guide spark-shell –jars “mongo-spark-con…
大数据架构师技能
一、大数据通用处理平台 Spark Hadoop 二、分布式存储 HDFS 三、资源调度 Yarn Mesos 四、机器学习工具 Spark Mlib TensorFlow (Google系) Amazon Machin…
spark读取mongo数据(python)
使用mongo官方提供的spark connector可以很方便的让spark读写mongo中的数据。 示例: from pyspark.sql import SparkSession from pyspark impo…
Spark的历史与发展(目录),Apache Spark 2.3.0 正式发布,Apache Spark 2.3.0 重要特性介绍,Apache Spark 2.2.0 正式发布,Apache Spark 2.2.0 新特性详细介绍
对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目。它于2010年正式开源,并…
Spark Tungsten in-heap / off-heap 内存管理机制
这篇文章具体描述了Spark Tungsten project 引入的新的内存管理机制,并且描述了一些使用细节。 前言 发现目前还没有这方面的文章,而自己也对这块比较好奇,所以就有了这篇内容。 分析方式基本是自下而上,也…
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十一)定制一个arvo格式文件发送到kafka的topic,通过Structured Streaming读取kafka的数据,Spark结构式流编程指南,Kafka 如何读取offset topic内容 (__consumer_offsets)
将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": "userlog", "fields": [ {"name": "ip","t…
Spark案例:通过并行化集合创建初始RDD
spark程序可以概括为一句话,所有的spark程序以读取数据开始,以处理数据为中心,以保存数据为结束。 读取数据可以从HDFS、本地文件或者并行化程序集合来创建,本案例是通过并行化集合来创建初始RDD。 java版本 …
Spark优化
Update: 找到文章的源头了,是美团公众号分享的一篇很给力的 Spark 性能优化的一些指导,链接再这里: https://tech.meituan.com/spark_tuning_basic.html 这篇文章近…
3.2 Spark调度机制
3.2 Spark调度机制 Spark调度机制是保证Spark应用高效执行的关键。本节从Application、job、stage和task的维度,从上层到底层来一步一步揭示Spark的调度策略。 3.2.1 Appli…
25,Spark Sort-Based Shuffle内幕彻底解密
一:为什么需要Sort-Based Shuffle? 1, Shuffle一般包含两个阶段任务: 第一部分:产生Shuffle数据的阶段(Map阶段,额外补充,需要实现ShuffleManager中的getW…