分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。 分布式流处理是对无边界数据集进行连续不断的处理、聚合和…
分类:Spark
Spark:低配版高斯朴素贝叶斯实现
Motivation 最近有项目用到Scikit-learn上的高斯朴素贝叶斯模型(简称GNB),随着数据量增大,单机上跑GNB肯定会很慢,所以打算转Spark上。然后发现MLlib并没有实现GNB,自己动手,丰衣足食~…
Spark优化----开发调优(下)
上次讲到避免使用shuffle类算子,接下来继续 5、使用map-side预聚合的shuffle操作 如果因为业务需要,一定要使用shuffle操作,无法用map类的算子来替代,那么尽量使用可以map-side预聚合的算…
spark on yarn源码解析
本文章,原创 若泽数据 ,禁止所有阅读,转载,分享及评论 spark on yarn 执行流程前置 构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(…
数据算法 Hadoop/Spark大数据处理---第十章
本章为推荐引擎 本章为基于电影内容的推荐,假设输入为<用户,电影,评分>,输入为<电影1,电影2><三种算法的相似度>。 本章实现方式 基于传统spark来实现 基于传统Scala来实…
Spark 任务执行排查慢的问题排查-2
现象描述: Application主要是从hadoop文件中读取数据,然后计算出24小时的车辆状态,并存储。所以总共24个Job。之前Application的平均执行时间是2小时,目前执行时间是5小时。仔细查看Appli…
Spark概述
Spark:基于内存的分布式的计算框架,是一个针对海量数据处理的非常快的通用的计算引擎(计算框架)。 特点: 先进架构 采用Scala语言编写,底层采用actormodel的akka作为通讯框架…
[spark] spark推测式执行
概述 推测任务是指对于一个Stage里面拖后腿的Task,会在其他节点的Executor上再次启动这个task,如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果,同时会干掉其他Execut…
SparkStreaming消费kafka使用及原理
作者 | 张伟 AI前线出品| ID:ai-front 本文主要介绍Spark Streaming(以下简称SS,版本1.6.3)的一些基本概念,以及SS消费kafka(版本0.8.2.1)数据的两种方式的使用及其原理。…
【Spark】Spark应用执行机制
Spark应用概念 Spark应用(Application)是用户提交的应用程序。执行模式又Local、Standalone、YARN、Mesos。根据Spark Application的Driver Program是否…
Spark 内存管理的前世今生(下)
欢迎关注我的微信公众号:FunnyBigData 在《Spark 内存管理的前世今生(上)》中,我们介绍了 UnifiedMemoryManager 是如何管理内存的。然而,UnifiedMemoryManager 是 …
spark日志配置及问题排查方式。
此文已由作者岳猛授权网易云社区发布。 欢迎访问网易云社区,了解更多网易技术产品运营经验。 任何时候日志都是定位问题的关键,spark也不会例外,合适的配置和获取spark的driver,am,及executor日志将会提…