spark 累加历史主要用到了窗口函数,而进行全部统计,则需要用到rollup函数 1 应用场景: 1、我们需要统计用户的总使用时长(累加历史) 2、前台展现页面需要对多个维度进行查询,如:产品、地区…
分类:Spark
Spark ML机器学习
Spark提供了常用机器学习算法的实现, 封装于spark.ml和spark.mllib中. spark.mllib是基于RDD的机器学习库, spark.ml是基于DataFrame的机器学习库. 相对于RDD, Da…
金融风控面试十二问
写在最前面的话 最近看有些同学在找金融风控方面的工作。咱们课程涉及到的,主要是建模的过程。有些同学对整个业务框架不是很了解,所以总结了一下平时面试聊的比较多的一些点。 前九道题都是工作中一定会碰到的基本内容,如果有一些这…
(五)Spark Streaming 算子梳理 — foreachRDD
目录 天小天:(一)Spark Streaming 算子梳理 — 简单介绍streaming运行逻辑 天小天:(二)Spark Streaming 算子梳理 — flatMap和mapPartitions 天小天:(三)…
Java Servlet(十一):一个servlet被10个浏览器客户端访问时会创建几个servlet实例?,Java Servlet(二):servlet配置及生命周期相关(jdk7+tomcat7+eclipse)
一般Servlet只初始化一次(只有一个实例)。对于更多的客户端请求,Server创建新的请求和响应对象,仍然激活此Servlet的service()方法,将这两个对象作为参数传递给该方法。如此重复以上的循环,但无需再调…
Spark Distributed matrix 分布式矩阵
RowMatrix行矩阵 import org.apache.spark.rdd.RDD import org.apache.spark.mllib.linalg.Vectors import org.apache.sp…
spark--环境搭建--6.Spark1.3.0集群搭建
1. spark安装 $ cd /usr/local $ tar -zxvf spark-1.3.0-bin-hadoop2.4.tgz $ mv spark-1.3.0-bin-hadoop2.4 spark $ vi…
shell--目录通配符
符号 说明 ? 匹配任一字符 * 匹配一个或多个字符 [a-z0-9] 类似于正则表达式, 若想匹配?可用[?] [!a-z] 类似于正则表达式[^a-z], 不匹配中括号中的内容 {string1, st…
todo
H2教程看到: Connecting to a Database using JDBC有疑问: Adding Database Drivers
Spark中RDD和DataFrame互相转换的原因及方法
本文讲解Spark中的RDD和DataFrame之间的互相转换,主要内容包括以下几点: 1、RDD转DataFrame原因及方式 2、DataFrame转RDD原因及方式 3、DataFrame转RDD的案例 1、RDD…
Scala实战:巧用集合实现数据脱敏
在日常开发中,经常会遇到对数据进行脱敏处理的需求。像隐藏身份证或者手机号中间几位。比如对于:13812345678这个手机号,我们会使用*号替换中间4位来达到隐藏的目的,就像这样:138****5678。这是一个很常见也…
混合高斯模型Spark MLlib调用实例(Scala/Java/Python)
高斯混合模型 混合高斯模型描述数据点以一定的概率服从k种高斯子分布的一种混合分布。Spark.ml使用EM算法给出一组样本的极大似然模型。 参数: featuresCol: 类型:字符串型。 含义:特征列名。 k: 类型…