标签：spark

基于Spark环境对比Python和Scala语言利弊

在数据挖掘中，Python和Scala语言都是极受欢迎的，本文总结两种语言在Spark环境各自特点。本文翻译自 https://www.dezyre.com/article/Scala-vs-Python-…

SparkContext SparkContext 是Spark 应用的主入口，通过它可以连接Spark 集群，并在集群中创建RDD，累加器，广播变量等；==每一个启动 JVM 上只能有一个SparkContext，在启…

mesos集群部署参见上篇。运行在mesos上面和 spark standalone模式的区别是： 1）stand alone 需要自己启动spark master 需要自己启动spark slaver（…

几种给Dataset增加列的方式首先创建一个DF对象： scala> spark.version res0: String = 2.2.0.cloudera1 scala> val df = spark.c…

由于Scala才刚刚开始学习，还是对python更为熟悉，因此在这记录一下自己的学习过程，主要内容来自于spark的官方帮助文档，这一节的地址为： http://spark.apache.org/docs/latest/…

Spark GraphX是一个分布式的图处理框架。社交网络中，用户与用户之间会存在错综复杂的联系，如微信、QQ、微博的用户之间的好友、关注等关系，构成了一张巨大的图，单机无法处理，只能使用分布式图处理框架处理，Spark…

今天，星球里有个妹子问了一个问题，主要是spark官网说了这么段话：在gc的统计信息中，如果老年代接近满了，减少用于缓存的内存(通过减小spark.memory.Fraction)。缓存较少的对象比降低运行速度对我…

本教程基于Spark官网的快速入门教程改编而来，官方文档和中文翻译的传送门见最下方。（注意，实际情况可能因为版本不同等原因有所不同）如果对本文中的一些名词感到疑惑，可以看另外一篇入门文章：五分钟大数据：Spark入门 …

MongoDB Connector for Spark　　Spark Connector Scala Guide spark-shell –jars “mongo-spark-con…

一、大数据通用处理平台 Spark Hadoop 二、分布式存储 HDFS 三、资源调度 Yarn Mesos 四、机器学习工具 Spark Mlib TensorFlow (Google系) Amazon Machin…

使用mongo官方提供的spark connector可以很方便的让spark读写mongo中的数据。示例： from pyspark.sql import SparkSession from pyspark impo…

对于一个具有相当技术门槛与复杂度的平台，Spark从诞生到正式版本的成熟，经历的时间如此之短，让人感到惊诧。2009年，Spark诞生于伯克利大学AMPLab，最开初属于伯克利大学的研究性项目。它于2010年正式开源，并…