分类：Spark

Spark metrics实现KafkaSink

背景监控是Spark非常重要的一部分。Spark的运行情况是由ListenerBus以及MetricsSystem 来完成的。通过Spark的Metrics系统，我们可以把Spark Metrics的收集到的信息发送到…

一、Spark单机版安装 Spark部署模式主要是四种：Local模式（单机模式，是本文讲的方式，仅供熟悉Spark和scala入门用）、Standalone模式（使用Spark自带的简单集群管理器,计算数据不是特别庞大…

要想通过ES API对es的操作，必须获取到TransportClient对象，让后根据TransportClient获取到IndicesAdminClient对象后，方可以根据IndicesAdminClient对象提…

https://www.cnblogs.com/kevingrace/p/9456563.html

https://libraries.io/github/SeelozInc/opentsdb-spark opentsdb-spark Module for accessing OpenTSDB data through…

1. 查看hdfs文件中前几行随机返回指定行数的样本数据 hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5 返回前几行的样本数据…

RDD是什么？ RDD（Resilient Distributed Dataset）是一个弹性分布式数据集，简单的说就是弹性加分布式的数据集。在rdd里的数据可以并行在分布式集群中进行计算；弹性就是说RDD中的数据可…

连接spark 1. 连接spark 1.1. 简单连接spark 1.2. 连接spark集群 1.3. 集群python环境 1.4. config参数 2. 提交作业 1. 连接spark 1.1. 简单连接spa…

前言：基础的机器学习算法，可能在神经网络，深度学习的浪潮所淹没，但是本文重点在于工程实践，重点在于分布式的实现理解，如何在在于通用架构中（spark\Hadoop生态系统）去实现有价值的系统或者算法。 K 均值算法：就是…

为什么单独讲解combineByKey？因为combineByKey是Spark中一个比较核心的高级函数，其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出com…

因为首次启动JOB的时候，由于冷启动会造成内存使用太大，为了防止这种情况出现，限制首次处理的数据量 spark.streaming.backpressure.enabled=true spark.streaming.ba…

对于0基础学员来说，加米谷学院的大数据培训课程Java部分都学习哪些课程呢？大数据开发工程师课程体系——Java部分。第一阶段：静态网页基础 1、学习Web标准化网页制作，必备的HTML标记和属性 2、学习HTML表…