分类：Spark

spark令人疑惑的内存配置

今天，星球里有个妹子问了一个问题，主要是spark官网说了这么段话：在gc的统计信息中，如果老年代接近满了，减少用于缓存的内存(通过减小spark.memory.Fraction)。缓存较少的对象比降低运行速度对我…

本教程基于Spark官网的快速入门教程改编而来，官方文档和中文翻译的传送门见最下方。（注意，实际情况可能因为版本不同等原因有所不同）如果对本文中的一些名词感到疑惑，可以看另外一篇入门文章：五分钟大数据：Spark入门 …

MongoDB Connector for Spark　　Spark Connector Scala Guide spark-shell –jars “mongo-spark-con…

一、大数据通用处理平台 Spark Hadoop 二、分布式存储 HDFS 三、资源调度 Yarn Mesos 四、机器学习工具 Spark Mlib TensorFlow (Google系) Amazon Machin…

使用mongo官方提供的spark connector可以很方便的让spark读写mongo中的数据。示例： from pyspark.sql import SparkSession from pyspark impo…

对于一个具有相当技术门槛与复杂度的平台，Spark从诞生到正式版本的成熟，经历的时间如此之短，让人感到惊诧。2009年，Spark诞生于伯克利大学AMPLab，最开初属于伯克利大学的研究性项目。它于2010年正式开源，并…

这篇文章具体描述了Spark Tungsten project 引入的新的内存管理机制，并且描述了一些使用细节。前言发现目前还没有这方面的文章，而自己也对这块比较好奇，所以就有了这篇内容。分析方式基本是自下而上，也…

将arvo格式数据发送到kafka的topic 第一步：定制avro schema: { "type": "record", "name": "userlog", "fields": [ {"name": "ip","t…