Novel Method for Tuning Configuration Parameters of Spark Based on Machine Learning 本文是一篇关于Spark调参的文章,主要方法是基于二…
分类:Spark
Spark的Driver和ApplicationMaster进程核数设置之我见
配置 Configuration Default Value Meaning spark.driver.cores 1 Number of cores to use for the driver process, onl…
Spark 2.0 Structured Streaming 分析
前言 Spark 2.0 将流式计算也统一到DataFrame里去了,提出了Structured Streaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结果映射为另外一张表,完全以结构化的方式去操作流…
spark+livy安装测试
1.Ubuntu Spark 环境搭建 http://blog.csdn.net/u010171031/article/details/51849562 到这一步。 2.Ubuntu 16.04安装R 只需要执行这一句。…
【Spark Java API】Action(5)—treeAggregate、treeReduce
treeAggregate 官方文档描述: Aggregates the elements of this RDD in a multi-level tree pattern. 函数原型: def treeAggrega…
使用 Prometheus 和 Grafana 监控 Spark 应用
背景 每个开发者都想了解自己任务运行时的状态,便于调优及排错,Spark 提供的 webui 已经提供了很多信息,用户可以从上面了解到任务的 shuffle,任务运行等信息,但是运行时 Executor JVM 的状态对…
spark stdout中文乱码
1、前言 作为一个工作在中国的程序员,在项目开发中经常会打印中文,当然在编程中运用中文(日志等)不可避免的会碰到编码问题,刚…
spark应用开发-开发工具篇
概要 目前Spark官方提供Java,Scala,Python三种语言的API。因为Spark是用Scala开发,而Scala本身是基于JVM的语言,所以Scala和Java的API完整稳定;Python相对不太完整,有…
Spark SQL 学习笔记
1.什么是 Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 2. DataFrame 详解 与RDD类似,D…
Spark 大数据动手实验
本课程为实验楼原创课程,转载请注明课程链接:https://www.shiyanlou.com/courses/456 Spark 大数据动手实验 课程介绍:15个实验带你亲身体验Spark大数据分析的魅力,最快的上手教…
Spark实现PageRank算法
搜索引擎的几个技术要点 最近浏览了搜索引擎的发展历程,简单总结下。搜索引擎需要解决的主要问题包含但不限于:建立资料库,建立关键字-页面号的索引,确定页面排序。三者的经典解决办法分别为:爬虫技术(Spider)、倒排索引(…
Spark MLlib学习——综述和Pipeline
MLlib是Spark的机器学习lib,目的是让机器学习的实践变得更加简单,总的来说它提供了以下几种工具: ML算法:分类、回归、聚类和协同过滤等常用学习算法 特征工程:特征提取、转换、降维和选择 Pipelines:创…