分类：Spark

Spark on Yarn

版本：spark-2.3.0-bin-hadoop2.6 http://spark.apache.org/docs/latest/running-on-yarn.html 在YARN上启动Spark 确保HADOOP_C…

摘自https://www.zhihu.com/question/26568496/answer/41608400 举一个Hadoop自带的WordCount例子来说明 https://wiki.apache.org/h…

问题1：内存溢出 WARN TaskSetManager:66 – Lost task 0.1 in stage 2.1 (TID 334, hbasenode2, executor 2): FetchFai…

前言本篇文章主要是从作业提交到最后获取到作业结果,从源码的角度，但是不涉及源码进行的分析.其目的是读完本篇文章，你将对作业的基本流程有个清晰的认识。 1.任务提交过程首先，我们知道，一个action算子是触发一个jo…

前面讲到了RDD的分区、RDD的创建，这节将讲解RDD的转换，RDD的转换就是从父RDD生成一个新的RDD，新的RDD分区可能和父RDD一致也可能不再一致。常用的转换函数: map map是对每个元素进行转换，生成新的…

Spark快速入门指南 – 梦里花落的博客 – 博客频道 – CSDN.NET http://blog.csdn.net/qq_19244267/article/details/464…

Producer 发送 JSON 数据到 Kafka： from confluent_kafka import Producer p = Producer({'bootstrap.servers': 'localhost…

环境配置，Spark实现WordCount 本人准备参加腾讯实习，有关大数据与机器学习。由于本人对大数据一无所知，因此准备由Spark作为切入口开始自学，一步步完成机器学习各个算法在Spark上的应用。自学过程中的点点滴…

RDD是容错、并行的数据结构，具备分区的属性，这个分区可以是单机上分区也可以是多机上的分区，对于RDD分区的数量涉及到这个RDD进行并发计算的粒度。每一个分区都会在一个单独的task中执行。可以为其指定分区个数，如果从…

本节内容主要完成：使用sparkshell记载本地文件和hdfs文件 spark处理的文件可能存在于本地文件系统中，也可能存在分布式文件系统中本地文件加载创建一个测试文件 [root@sandbox home]# …

通过Spark Streaming，实时监控HDFS目录，发现有文件时，实时进行计算。 package com.spark.streaming import org.apache.spark.SparkConf impo…

前言之前写过一篇文章，如何提高ElasticSearch 索引速度。除了对ES本身的优化以外，我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强，cpu密集型的很适合。这篇文章涉及的调整也是对S…