分类：Spark

【Spark Java API】Transformation(5)—cartesian、distinct

cartesian 官方文档描述： Return the Cartesian product of this RDD and another one, that is, the RDD of all pairs of e…

这里介绍了一些 spark RDD 中比较难理解的算子，方便以后回忆。 mapPartitions transformation转换 def mapPartitions[U](f: (Iterator[T]) =>…

前言昨天媛媛说，你是不是很久没写博客了。我说上一篇1.26号，昨天3.26号，刚好两个月，心中也略微有些愧疚。今天正好有个好朋友问，怎么在Java应用里集成Spark MLlib训练好的模型。在StreamingPro…

添加关注作者祝威廉 2016.04.19 23:53* 写了147997字，被1139人关注，获得了540个喜欢 Spark会把数据都载入到内存么？字数1239 阅读3040 评论21 喜欢12 这篇文…

简介 MLlib是Spark提供提供机器学习的库，专为在集群上并行运行的情况而设计。 MLlib包含很多机器学习算法，可在Spark支持的所有编程语言中使用。 MLlib设计理念是将数据以RDD的形式表示，然后在分布式数…

伴随Spark技术的普及推广，对专业人才的需求日益增加。Spark这门语言也是科多大数据在教学实施过程，必须要学习者深入学习的一门语言。不过学习Spark，也不如能操之过急，也需要一招一式，从内功练起：通常来讲需要经历以…

前言 Spark数据本地化即移动计算而不是移动数据，而现实又是残酷的，不是想要在数据块的地方计算就有足够的资源提供，为了让task能尽可能的以最优本地化级别（Locality Levels）来启动，Spark的延迟调度应…

坑挖的有点多，最近打算填一个：给scala加上linq。在spark RDD和DataFrame上直接用岂不是美滋滋。用过几次c#，linq还是非常直观的，很喜欢这个设计。不过现在都忘的差不多了，再来回顾一下linq…

错误提示 1、executor lost WARN TaskSetManager: Lost task 1.0 in stage 0.0 (TID 1, aa.local): ExecutorLostFailure (e…

需要HADOOP_CONF_DIR YARN_CONF_DIR环境变量，用于写入数据到hdfs和连接到yarn的resourcemanager。启动方式同样有两种： cluster mode 在yarn集群中的一个进程…

原文链接 Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame AP…

spark-submit参数设置说明，即提交EMR集群的Spark作业资源调优，详见该链接：spark-submit 参数设置说明和该链接：Spark On YARN内存和CPU分配。 AM: YARN Applica…