翻译自Spark官网。 一、Spark Sql 历史 大数据主要包括三类操作: 1、 长时间运行的批量数据处理。 2、 交互式运行的数据查询。 3、 实时数据流处理。 Spark Sql 的前身是shark,最初是用在查…
标签:spark
Spark核心RDD:combineByKey函数详解
为什么单独讲解combineByKey? 因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等 如下给出com…
spark stream冷启动处理kafka中积压的数据
因为首次启动JOB的时候,由于冷启动会造成内存使用太大,为了防止这种情况出现,限制首次处理的数据量 spark.streaming.backpressure.enabled=true spark.streaming.ba…
Pyspark 使用 Spark Udf 的一些经验
起初开始写一些 udf 的时候感觉有一些奇怪,在 spark 的计算中,一般通过转换(Transformation) 在不触发计算(Action) 的情况下就行一些预处理。udf 就是这样一个好用的东西,他…
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十七):kafka manager安装
一、kafka-manager简介 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka M…
spark计算两个DataFrame的差集、交集、合集
spark 计算两个dataframe 的差集、交集、合集,只选择某一列来对比比较好。新建两个 dataframe : import org.apache.spark.{SparkConf, SparkContext} …
Hbase性能测试工具之YCSB
最近比较忙,比较少出没知乎。下午花了点时间写了一篇”轻量级”的文章,介绍一个性能压测工具:YCSB,全称为“Yahoo! Cloud Serving Benchmark”。 它是一个非常方便的针对…
[第七章] spark 资源调度算法深入剖析
前面几章我们重点讲述了spark的的原理,sparkContext的初使化,spark主备切换,master的注册等。其中我们分析源码时,不管是driver,还是application在注册Master时都,在最后都有这…
spark实例-DataSet之统计部门员工平均薪资和平均年龄
需求分析 计算部门的平均薪资和年龄 只统计年龄在20岁以上的员工 根据部门名称和员工性别为粒度来进行统计 统计出每个部门分性别的平均薪资和年龄 关键技术点 导入隐式转化import spark.implicits._ 导…
Spark源码分析之Spark Shell(上)
终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的。另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式…
使用Spark读写CSV格式文件(转)
原文链接:使用Spark读写CSV格式文件 CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的…
机器学习平台
以下内容来自刘建平Pinard-博客园的学习笔记,总结如下: 要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择非常重要。 首先,对于平台选择的第一个问题是,你是要用于生产环境,也就是具体的…