分类：Spark

spark 累加历史 + 统计全部 + 行转列

spark 累加历史主要用到了窗口函数，而进行全部统计，则需要用到rollup函数 1 应用场景：　　1、我们需要统计用户的总使用时长（累加历史）　　2、前台展现页面需要对多个维度进行查询，如：产品、地区…

Spark提供了常用机器学习算法的实现，封装于spark.ml和spark.mllib中. spark.mllib是基于RDD的机器学习库， spark.ml是基于DataFrame的机器学习库. 相对于RDD， Da…

写在最前面的话最近看有些同学在找金融风控方面的工作。咱们课程涉及到的，主要是建模的过程。有些同学对整个业务框架不是很了解，所以总结了一下平时面试聊的比较多的一些点。前九道题都是工作中一定会碰到的基本内容，如果有一些这…

目录天小天：（一）Spark Streaming 算子梳理 — 简单介绍streaming运行逻辑天小天：（二）Spark Streaming 算子梳理 — flatMap和mapPartitions 天小天：（三）…

一般Servlet只初始化一次（只有一个实例）。对于更多的客户端请求，Server创建新的请求和响应对象，仍然激活此Servlet的service（）方法，将这两个对象作为参数传递给该方法。如此重复以上的循环，但无需再调…

RowMatrix行矩阵 import org.apache.spark.rdd.RDD import org.apache.spark.mllib.linalg.Vectors import org.apache.sp…

1. spark安装 $ cd /usr/local $ tar -zxvf spark-1.3.0-bin-hadoop2.4.tgz $ mv spark-1.3.0-bin-hadoop2.4 spark $ vi…

符号说明 ? 匹配任一字符 * 匹配一个或多个字符 [a-z0-9] 类似于正则表达式, 若想匹配?可用[?] [!a-z] 类似于正则表达式[^a-z], 不匹配中括号中的内容 {string1, st…

H2教程看到： Connecting to a Database using JDBC有疑问： Adding Database Drivers

本文讲解Spark中的RDD和DataFrame之间的互相转换，主要内容包括以下几点： 1、RDD转DataFrame原因及方式 2、DataFrame转RDD原因及方式 3、DataFrame转RDD的案例 1、RDD…

在日常开发中，经常会遇到对数据进行脱敏处理的需求。像隐藏身份证或者手机号中间几位。比如对于：13812345678这个手机号，我们会使用*号替换中间4位来达到隐藏的目的，就像这样：138****5678。这是一个很常见也…

高斯混合模型混合高斯模型描述数据点以一定的概率服从k种高斯子分布的一种混合分布。Spark.ml使用EM算法给出一组样本的极大似然模型。参数： featuresCol: 类型：字符串型。含义：特征列名。 k: 类型…