开发wordcount程序 1、用Java开发wordcount程序 1.1 配置maven环境 1.2 如何进行本地测试 1.3 如何使用spark-submit提交到spark集群进行执行(spark-submit常…
分类:Spark
基于spark实现TFIDF
上一段实习的时候用spark手写了一个tfidf,下面贴上代码并和spark中的源码进行比较。 输入文本(demo): 文档1:a b c d e f g 文档2:a b c d e f 文档3:a b c d e 文档…
Spark Streaming 实时统计商户当日累计PV流量
一、问题 对实时流量日志过滤筛选商户流量,对每个商户的流量进行累计,统计商户实时累计流量。 当时间超过24时时,重新统计当日商户的实时累计流量。 二、实现步骤 1、采用Spark Streaming读取Kafka中的实时…
(二)mac 安装xmpp服务端(openfire)+客户端(spark)
安装Openfire Openfire 下载地址 XMPP聊天之Openfire 的安装和配置和删除—Mac OS 1 . -openfire它是基于java实现 -如果要安装openfire 电脑必须安装j…
sparksql执行流程分析
在前面的文章《spark基础(上篇)》和《spark基础(下篇)》里面已经介绍了spark的一些基础知识,知道了spark sql是spark中一个主要的框架之一。本文我们通过源码,来介绍下spark sql的执行流程。…
SparkListener一些常用的监听使用方式
概述 spark 提供了一系列整个任务生命周期中各个阶段变化的事件监听机制 通过这一机制可以在任务的各个阶段做一些自定义的各种动作 SparkListener便是这些阶段的事件监听接口类 通过实现这个类中的各种方法便可实…
spark源码分析之Executor启动与任务提交篇
任务提交流程 概述 在阐明了Spark的Master的启动流程与Worker启动流程。接下继续执行的就是Worker上的Executor进程了,本文继续分析整个Executor的启动与任务提交流程 Spark-submi…
Phoenix 与Spark整合,完善大数据计算栈
本篇文章主要讲解phoenix与spark做整合,目的是将phoenix做存储,spark做计算层。这样就结合了phoenix查询速度快和spark计算速度快的优点。 在这里将Phoenix的表作为spark的RDD或者…
深入理解groupByKey、reduceByKey
测试源码 下面来看看groupByKey和reduceByKey的区别: val conf = new SparkConf().setAppName("GroupAndReduce").setMaster("local"…
Spark Shuffle(ExternalSorter)
1、Shuffle流程 spark的shuffle过程如下图所示,和mapreduce中的类似,但在spark2.0及之后的版本中只存在SortShuffleManager而将原来的HashShuffleManager废…
Spark Streaming 两种读取 Kafka 方式
receiver 方式 /* 输入的四个参数分别代表着 * 1. zkQuorum :zookeeper地址 * 2. group:消费者所在的组 * 3. topics:该消费者所消费的topics * 4. numT…
『 Spark 』4. spark 之 RDD
原文链接 写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解…