分类：Spark

实时流处理Storm、Spark Streaming、Samza、Flink对比

分布式流处理需求日益增加，包括支付交易、社交网络、物联网（IOT）、系统监控等。业界对流处理已经有几种适用的框架来解决，下面我们来比较各流处理框架的相同点以及区别。分布式流处理是对无边界数据集进行连续不断的处理、聚合和…

Motivation 最近有项目用到Scikit-learn上的高斯朴素贝叶斯模型（简称GNB），随着数据量增大，单机上跑GNB肯定会很慢，所以打算转Spark上。然后发现MLlib并没有实现GNB，自己动手，丰衣足食～…

上次讲到避免使用shuffle类算子，接下来继续 5、使用map-side预聚合的shuffle操作如果因为业务需要，一定要使用shuffle操作，无法用map类的算子来替代，那么尽量使用可以map-side预聚合的算…

本文章，原创若泽数据，禁止所有阅读，转载，分享及评论 spark on yarn 执行流程前置构建Spark Application的运行环境（启动SparkContext），SparkContext向资源管理器（…

本章为推荐引擎本章为基于电影内容的推荐，假设输入为<用户，电影，评分>，输入为<电影1，电影2><三种算法的相似度>。本章实现方式基于传统spark来实现基于传统Scala来实…

现象描述： Application主要是从hadoop文件中读取数据，然后计算出24小时的车辆状态，并存储。所以总共24个Job。之前Application的平均执行时间是2小时，目前执行时间是5小时。仔细查看Appli…

Spark：基于内存的分布式的计算框架，是一个针对海量数据处理的非常快的通用的计算引擎(计算框架)。特点：先进架构采用Scala语言编写，底层采用actormodel的akka作为通讯框架…

概述推测任务是指对于一个Stage里面拖后腿的Task，会在其他节点的Executor上再次启动这个task，如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果，同时会干掉其他Execut…

作者 | 张伟 AI前线出品｜ ID：ai-front 本文主要介绍Spark Streaming(以下简称SS，版本1.6.3)的一些基本概念，以及SS消费kafka(版本0.8.2.1)数据的两种方式的使用及其原理。…

Spark应用概念 Spark应用（Application）是用户提交的应用程序。执行模式又Local、Standalone、YARN、Mesos。根据Spark Application的Driver Program是否…

欢迎关注我的微信公众号：FunnyBigData 在《Spark 内存管理的前世今生（上）》中，我们介绍了 UnifiedMemoryManager 是如何管理内存的。然而，UnifiedMemoryManager 是 …

此文已由作者岳猛授权网易云社区发布。欢迎访问网易云社区，了解更多网易技术产品运营经验。任何时候日志都是定位问题的关键，spark也不会例外，合适的配置和获取spark的driver，am，及executor日志将会提…