标签：spark

Spark SQL DataFrame和DataSet

翻译自Spark官网。一、Spark Sql 历史大数据主要包括三类操作： 1、长时间运行的批量数据处理。 2、交互式运行的数据查询。 3、实时数据流处理。 Spark Sql 的前身是shark，最初是用在查…

为什么单独讲解combineByKey？因为combineByKey是Spark中一个比较核心的高级函数，其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出com…

因为首次启动JOB的时候，由于冷启动会造成内存使用太大，为了防止这种情况出现，限制首次处理的数据量 spark.streaming.backpressure.enabled=true spark.streaming.ba…

起初开始写一些 udf 的时候感觉有一些奇怪，在 spark 的计算中，一般通过转换(Transformation) 在不触发计算(Action) 的情况下就行一些预处理。udf 就是这样一个好用的东西，他…

一、kafka-manager简介为了简化开发者和服务工程师维护Kafka集群的工作，yahoo构建了一个叫做Kafka管理器的基于Web工具，叫做 Kafka M…

spark 计算两个dataframe 的差集、交集、合集，只选择某一列来对比比较好。新建两个 dataframe ： import org.apache.spark.{SparkConf, SparkContext} …

最近比较忙，比较少出没知乎。下午花了点时间写了一篇”轻量级”的文章，介绍一个性能压测工具：YCSB，全称为“Yahoo! Cloud Serving Benchmark”。它是一个非常方便的针对…

前面几章我们重点讲述了spark的的原理，sparkContext的初使化，spark主备切换，master的注册等。其中我们分析源码时，不管是driver,还是application在注册Master时都，在最后都有这…

需求分析计算部门的平均薪资和年龄只统计年龄在20岁以上的员工根据部门名称和员工性别为粒度来进行统计统计出每个部门分性别的平均薪资和年龄关键技术点导入隐式转化import spark.implicits._ 导…

终于开始看Spark源码了，先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东，其实里面还是有很多知识点的。另外，从启动脚本入手，是寻找代码入口最简单的方法，很多开源框架，其实都可以通过这种方式…

原文链接：使用Spark读写CSV格式文件 CSV格式的文件也称为逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的…

以下内容来自刘建平Pinard-博客园的学习笔记，总结如下：要学习或者研究机器学习，进而用到生产环境，对平台，开发语言，机器学习库的选择非常重要。　　首先，对于平台选择的第一个问题是，你是要用于生产环境，也就是具体的…