版本:spark-2.3.0-bin-hadoop2.6 http://spark.apache.org/docs/latest/running-on-yarn.html 在YARN上启动Spark 确保HADOOP_C…
分类:Spark
Spark小白零基础入门(三)——Spark与Hadoop对比
摘自https://www.zhihu.com/question/26568496/answer/41608400 举一个Hadoop自带的WordCount例子来说明 https://wiki.apache.org/h…
spark遇到的坑坑坑
问题1:内存溢出 WARN TaskSetManager:66 – Lost task 0.1 in stage 2.1 (TID 334, hbasenode2, executor 2): FetchFai…
Spark系列——作业原理详解
前言 本篇文章主要是从作业提交到最后获取到作业结果,从源码的角度,但是不涉及源码进行的分析.其目的是读完本篇文章,你将对作业的基本流程有个清晰的认识。 1.任务提交过程 首先,我们知道,一个action算子是触发一个jo…
SPARK[RDD之转换函数]
前面讲到了RDD的分区、RDD的创建,这节将讲解RDD的转换,RDD的转换就是从父RDD生成一个新的RDD,新的RDD分区可能和父RDD一致也可能不再一致。 常用的转换函数: map map是对每个元素进行转换,生成新的…
==[语法]Spark快速入门指南
Spark快速入门指南 – 梦里花落的博客 – 博客频道 – CSDN.NET http://blog.csdn.net/qq_19244267/article/details/464…
Spark Structured Streaming 解析 JSON
Producer 发送 JSON 数据到 Kafka: from confluent_kafka import Producer p = Producer({'bootstrap.servers': 'localhost…
从零开始学习Spark(一)环境配置,实现WordCount
环境配置,Spark实现WordCount 本人准备参加腾讯实习,有关大数据与机器学习。由于本人对大数据一无所知,因此准备由Spark作为切入口开始自学,一步步完成机器学习各个算法在Spark上的应用。自学过程中的点点滴…
SPARK[RDD之partitions]
RDD是容错、并行的数据结构,具备分区的属性,这个分区可以是单机上分区也可以是多机上的分区,对于RDD分区的数量涉及到这个RDD进行并发计算的粒度。每一个分区都会在一个单独的task中执行。 可以为其指定分区个数,如果从…
Spark hello word(加载本地文件和加载hdfs文件)
本节内容主要完成: 使用sparkshell记载本地文件和hdfs文件 spark处理的文件可能存在于本地文件系统中,也可能存在分布式文件系统中 本地文件加载 创建一个测试文件 [root@sandbox home]# …
Spark实例-通过HDFS文件实时统计
通过Spark Streaming,实时监控HDFS目录,发现有文件时,实时进行计算。 package com.spark.streaming import org.apache.spark.SparkConf impo…
自定义Spark Partitioner提升es-hadoop Bulk效率
前言 之前写过一篇文章,如何提高ElasticSearch 索引速度。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,cpu密集型的很适合。这篇文章涉及的调整也是对S…