标签：spark

Spark RDD数据过滤

过滤RDD中的数据通过查看RDD的官方AIP，可以使用两种方法，filter和collect filter scala> val testRDD = sc.makeRDD(1 to 10) testRDD: org…

SPARK （Spark）编辑 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类H…

项目地址 A Fully HiveServer2-like Multi-tenancy Spark Thrift Server Supporting Impersonation and Multi-SparkContex…

版本：spark-2.3.0-bin-hadoop2.6 http://spark.apache.org/docs/latest/running-on-yarn.html 在YARN上启动Spark 确保HADOOP_C…

摘自https://www.zhihu.com/question/26568496/answer/41608400 举一个Hadoop自带的WordCount例子来说明 https://wiki.apache.org/h…

问题1：内存溢出 WARN TaskSetManager:66 – Lost task 0.1 in stage 2.1 (TID 334, hbasenode2, executor 2): FetchFai…

Spark快速入门指南 – 梦里花落的博客 – 博客频道 – CSDN.NET http://blog.csdn.net/qq_19244267/article/details/464…

环境配置，Spark实现WordCount 本人准备参加腾讯实习，有关大数据与机器学习。由于本人对大数据一无所知，因此准备由Spark作为切入口开始自学，一步步完成机器学习各个算法在Spark上的应用。自学过程中的点点滴…

通过Spark Streaming，实时监控HDFS目录，发现有文件时，实时进行计算。 package com.spark.streaming import org.apache.spark.SparkConf impo…

前言之前写过一篇文章，如何提高ElasticSearch 索引速度。除了对ES本身的优化以外，我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强，cpu密集型的很适合。这篇文章涉及的调整也是对S…

介绍通过过去三年里部署、运维Spark Streaming的积累，我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。语义我们提出来一个简单的模型…

0 背景公司最近迁移 Hadoop 集群到堡垒机内部，我顺手把这些机器统一重命名了一下，折腾了几个小时，集群终于正常上线。但是其他部门的同事跑来说 spark-sql 不能建表了，报错如下： Error in quer…