此文已由作者岳猛授权网易云社区发布。 欢迎访问网易云社区,了解更多网易技术产品运营经验。 任何时候日志都是定位问题的关键,spark也不会例外,合适的配置和获取spark的driver,am,及executor日志将会提…
标签:spark
Spark连接Elasticsearch总结
spark连接elasticsearch总结与问题汇总,先立个flag,内容以后再写~.~
Storm和Spark streaming对比和应用场景
转载来源:spark与storm的对比 1 对比 对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算…
Spark 性能调优
Spark性能优化概览 Spark在本质上是一个基于内存计算的框架,当我们在Spark集群中运行Spark应用程序时,就存在着很多因素影响Spark应用程序的性能。比如说:CPU,网络带宽,内存等。如果,内存足够大,能够…
[Kafka]整合到Spark Streaming
整合Kafka到Spark Streaming——代码示例和挑战 – stark_summer的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/st…
大数据实战高手进阶之路:Machine Learning on Spark彻底揭秘
学习编程拼图理论的框架整理 介绍 机器学习是大数据技术的制高点,是大数据技术人员核心竞争力之所在,是企业大数据使用的灵魂,是每个想在大数据领域的有卓越价值的技术人员都必须掌握的内容! Spark 在机器学习方面有着无与伦…
Spark学习
第一周 Spark生态系统概述与编程模型 Spark生态系统概述 回顾Hadoop MapReduce Spark运行模式 RDD Spark运行时模型简介 缓存策略介绍 transformation action li…
Spark 2. RDDs 并行集合 外部数据集
可伸缩的分布式数据集 Resilient Distributed Datasets (RDDs) 原文地址: http://spark.apache.org/docs/latest/programming-guide.h…
spark最新版本搭配
Get Spark from the downloads page of the project website. This documentation is for Spark version 2.2.0. Spark…
Spark Structured Streaming 与Kafka的整合
Structured Streaming 与0.10及以上版本的Kafka整合来对Kafka中的读书进行读取和写入操作。 Linking 对于使用SBT/Maven定义的Scala/Java应用程序,请将你的应用程序与如…
spark-streaming-kafka之createDirectStream模式
完整工程用例 最近一直在用directstream方式消费kafka中的数据,特此总结,整个代码工程分为三个部分 一. 完整工程代码如下(某些地方特意做了说明, 这个代码的部分函数直接用的是spark-streaming…
Spark 6. RDD 持久化
RDD 持久化 原文地址: http://spark.apache.org/docs/latest/programming-guide.html 仅限交流使用,转载请注明出处。如有错误,欢迎指出! Henvealf/译 …