过滤RDD中的数据通过查看RDD的官方AIP,可以使用两种方法,filter和collect filter scala> val testRDD = sc.makeRDD(1 to 10) testRDD: org…
标签:spark
2018-04-17 大数据 spark
SPARK (Spark) 编辑 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类H…
Spark Multi Tenancy系列 - 3 项目简介
项目地址 A Fully HiveServer2-like Multi-tenancy Spark Thrift Server Supporting Impersonation and Multi-SparkContex…
Spark on Yarn
版本:spark-2.3.0-bin-hadoop2.6 http://spark.apache.org/docs/latest/running-on-yarn.html 在YARN上启动Spark 确保HADOOP_C…
Spark小白零基础入门(三)——Spark与Hadoop对比
摘自https://www.zhihu.com/question/26568496/answer/41608400 举一个Hadoop自带的WordCount例子来说明 https://wiki.apache.org/h…
spark遇到的坑坑坑
问题1:内存溢出 WARN TaskSetManager:66 – Lost task 0.1 in stage 2.1 (TID 334, hbasenode2, executor 2): FetchFai…
==[语法]Spark快速入门指南
Spark快速入门指南 – 梦里花落的博客 – 博客频道 – CSDN.NET http://blog.csdn.net/qq_19244267/article/details/464…
从零开始学习Spark(一)环境配置,实现WordCount
环境配置,Spark实现WordCount 本人准备参加腾讯实习,有关大数据与机器学习。由于本人对大数据一无所知,因此准备由Spark作为切入口开始自学,一步步完成机器学习各个算法在Spark上的应用。自学过程中的点点滴…
Spark实例-通过HDFS文件实时统计
通过Spark Streaming,实时监控HDFS目录,发现有文件时,实时进行计算。 package com.spark.streaming import org.apache.spark.SparkConf impo…
自定义Spark Partitioner提升es-hadoop Bulk效率
前言 之前写过一篇文章,如何提高ElasticSearch 索引速度。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,cpu密集型的很适合。这篇文章涉及的调整也是对S…
[翻译]Spark Struct Streaming设计文档
介绍 通过过去三年里部署、运维Spark Streaming的积累,我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。 语义 我们提出来一个简单的模型…
Spark填坑之旅
0 背景 公司最近迁移 Hadoop 集群到堡垒机内部,我顺手把这些机器统一重命名了一下,折腾了几个小时,集群终于正常上线。但是其他部门的同事跑来说 spark-sql 不能建表了,报错如下: Error in quer…