JavaRDD 转化为 Dataset<Row>方案一: 实体类作为schema定义规范,使用反射,实现JavaRDD转化为Dataset<Row> Student.java实体类: import…
标签:spark
SparkSQL|日期函数
1. 计算 2个日期小时差 (unix_timestamp(qingjie_reg_time)-unix_timestamp(real_send_time))/3600 计算开始时间startdate到结束时间endda…
Spark Example
此文主要记录学习spark2.0例子的一些信息。 spark2基本不需要安装配置,直接装上scala就行。当然,有些example是依赖hadoop的hdfs的。因此你的机器上得先装好对应版本的hadoop。 spark…
2分钟读懂Hadoop和Spark的异同
2分钟读懂Hadoop和Spark的异同 反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,” Born说道。Spark的批处理速度比M…
spark 累加历史 + 统计全部 + 行转列
spark 累加历史主要用到了窗口函数,而进行全部统计,则需要用到rollup函数 1 应用场景: 1、我们需要统计用户的总使用时长(累加历史) 2、前台展现页面需要对多个维度进行查询,如:产品、地区…
Spark ML机器学习
Spark提供了常用机器学习算法的实现, 封装于spark.ml和spark.mllib中. spark.mllib是基于RDD的机器学习库, spark.ml是基于DataFrame的机器学习库. 相对于RDD, Da…
金融风控面试十二问
写在最前面的话 最近看有些同学在找金融风控方面的工作。咱们课程涉及到的,主要是建模的过程。有些同学对整个业务框架不是很了解,所以总结了一下平时面试聊的比较多的一些点。 前九道题都是工作中一定会碰到的基本内容,如果有一些这…
(五)Spark Streaming 算子梳理 — foreachRDD
目录 天小天:(一)Spark Streaming 算子梳理 — 简单介绍streaming运行逻辑 天小天:(二)Spark Streaming 算子梳理 — flatMap和mapPartitions 天小天:(三)…
Java Servlet(十一):一个servlet被10个浏览器客户端访问时会创建几个servlet实例?,Java Servlet(二):servlet配置及生命周期相关(jdk7+tomcat7+eclipse)
一般Servlet只初始化一次(只有一个实例)。对于更多的客户端请求,Server创建新的请求和响应对象,仍然激活此Servlet的service()方法,将这两个对象作为参数传递给该方法。如此重复以上的循环,但无需再调…
Spark Distributed matrix 分布式矩阵
RowMatrix行矩阵 import org.apache.spark.rdd.RDD import org.apache.spark.mllib.linalg.Vectors import org.apache.sp…
spark--环境搭建--6.Spark1.3.0集群搭建
1. spark安装 $ cd /usr/local $ tar -zxvf spark-1.3.0-bin-hadoop2.4.tgz $ mv spark-1.3.0-bin-hadoop2.4 spark $ vi…
shell--目录通配符
符号 说明 ? 匹配任一字符 * 匹配一个或多个字符 [a-z0-9] 类似于正则表达式, 若想匹配?可用[?] [!a-z] 类似于正则表达式[^a-z], 不匹配中括号中的内容 {string1, st…