起初开始写一些 udf 的时候感觉有一些奇怪,在 spark 的计算中,一般通过转换(Transformation) 在不触发计算(Action) 的情况下就行一些预处理。udf 就是这样一个好用的东西,他…
分类:Spark
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十七):kafka manager安装
一、kafka-manager简介 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka M…
spark计算两个DataFrame的差集、交集、合集
spark 计算两个dataframe 的差集、交集、合集,只选择某一列来对比比较好。新建两个 dataframe : import org.apache.spark.{SparkConf, SparkContext} …
Hbase性能测试工具之YCSB
最近比较忙,比较少出没知乎。下午花了点时间写了一篇”轻量级”的文章,介绍一个性能压测工具:YCSB,全称为“Yahoo! Cloud Serving Benchmark”。 它是一个非常方便的针对…
[第七章] spark 资源调度算法深入剖析
前面几章我们重点讲述了spark的的原理,sparkContext的初使化,spark主备切换,master的注册等。其中我们分析源码时,不管是driver,还是application在注册Master时都,在最后都有这…
spark实例-DataSet之统计部门员工平均薪资和平均年龄
需求分析 计算部门的平均薪资和年龄 只统计年龄在20岁以上的员工 根据部门名称和员工性别为粒度来进行统计 统计出每个部门分性别的平均薪资和年龄 关键技术点 导入隐式转化import spark.implicits._ 导…
Spark源码分析之Spark Shell(上)
终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的。另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式…
使用Spark读写CSV格式文件(转)
原文链接:使用Spark读写CSV格式文件 CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的…
机器学习平台
以下内容来自刘建平Pinard-博客园的学习笔记,总结如下: 要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择非常重要。 首先,对于平台选择的第一个问题是,你是要用于生产环境,也就是具体的…
基于Spark环境对比Python和Scala语言利弊
在数据挖掘中,Python和Scala语言都是极受欢迎的,本文总结两种语言在Spark环境各自特点。 本文翻译自 https://www.dezyre.com/article/Scala-vs-Python-for-ap…
Spark Scala 安装
Spark支持Java, Scala和Python。本身是用Scala写的。 参考书 Learning Spark: Lightning-fast big data analytics Spark快速大数据分析 Mast…
Spark SQL
一、概述 spark sql 是用于操作结构化数据的程序包 通过spark sql ,可以使用SQL 或者 HQL 来查询数据,查询结果以Dataset/DataFrame 的形式返回 它支持多种数据源,如Hive 表、…