算法网 - 高质量的算法学习社区

平安产险内部推荐-数据测试等

平安产险内部推荐-数据测试等 1、负责大数据相关产品和平台测试，制定大数据产品的测试流程规范，完善数据质量保障体系。 2、负责大数据相关测试工具平台的开发，或者业界相关开源工具的引进。 3、负责大数据测试团队的建设和发展…

场景一个 spark 应用的产生过程：获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。往往应用会正常运行一段时间，突然有一天运行失败，或是失败了一次才运行成功。从开发者的…

Spark 概述 Apache Spark是一个快速和通用的集群计算系统。它提供Java，scala,Python、R语言的APIs，以及支持一般执行图形的优化引擎。它还支持一组丰富的高级工具，包括用于SQL和结构化数…

总结一下，避免后面再重复踩坑。 Spark Streaming是近实时(near real time)的小批处理系统，可以对接各类消息中间或者直接监控Hdfs目录，可以做为实时大数据流式计算，也可以做一些按时间窗口的…

调优概述在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，…

zookeeper安装 zookeeper3.4.6安装 spark高可用安装完成 spark高可用安装 hadoop安装 hadoop安装整合hadoop+spark 配置spark+hadoop HADOOP_CO…

摘要：Shuffle是MapReduce编程模型中最耗时的一个步骤，而Spark将Shuffle过程分解成了Shuffle Write和Shuffle Read两个过程，本文我们将详细解读Spark的Shuffle Wr…

职责等待DAGScheduler job完成，一个JobWaiter对象与一个job唯一一一对应一旦task完成，将该task结果填充到SparkContext.runJob创建的results数组中构造函数 pr…

通过源码呈现 Spark Streaming 的底层机制。　1. 初始化与接收数据 Spark Streaming 通过分布在各个节点上的接收器，缓存接收到的流数据，并将流数据包装成 Spark 能够处理…

一、Spark简介 spark的特点 (1) 运行速度快使用DAG执行引擎以支持循环数据流与内存计算 (2) 容易使用支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell 进行交…

我的原创地址：https://dongkelun.com/2018/06/25/KafkaUV/ 前言本文利用SparkStreaming+Kafka实现实时的统计uv，即独立访客，一个用户一天内访问多次算一次，这个看…

一、背景当采用随机数和扩容表进行join解决数据倾斜的时候，就代表着，你的之前的数据倾斜的解决方案，都没法使用。这个方案是没办法彻底解决数据倾斜的，更多的，是一种对数据倾斜的缓解。原理，其实在上一讲，已经带出来了。…