字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: select length('abcedfg') from lxw_dual; 7 字符串反转函…
分类:Spark
Spark 中的join方式(pySpark)
spark基础知识请参考spark官网:http://spark.apache.org/docs/1.2.1/quick-start.html 无论是m…
spark-submit提交参数设置
/apps/app/spark-1.6.1-bin-hadoop2.6/bin/spark-submit –class com.zdhy.zoc2.sparksql.core.Java…
Flume整合Spark Streaming
Spark版本1.5.2,Flume版本:1.6 Flume agent配置文件:spool-8.51.conf agent.sources = source1 agent.channels …
文档主题生成模型(LDA)算法原理及Spark MLlib调用实例(Scala/Java/python)
文档主题生成模型(LDA) 算法介绍: LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇…
重要|Spark driver端得到executor返回值的方法
spark 使用的时候,总有些需求比较另类吧,比如有球友问过这样一个需求: 浪尖,我想要在driver端获取executor执行task返回的结果,比如task是个规则引擎, 我想知道每条规则命中了几条数据,请问这个怎么…
Spark:reduceByKey函数的用法
reduceByKey函数API: def reduceByKey(partitioner: Partitioner, func: JFunction2[V, V, V]): JavaPairRDD[K, V] def …
python模块--calendar
方法 返回值类型 说明 .calendar(theyear, w=2, l=1, c=6, m=3) str 返回指定年份的年历, w: 每个日期的宽度, l: 每一行的纵向宽度, c: 月与月之间的宽度, m: 一排显…
spring-boot集成spark并使用spark-sql
首先添加相关依赖: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" x…
PySpark使用小结(二)
工作中用PySpark更多的是做数据处理的工作,PySpark提供了很多对Spark DataFrame(RDD)操作的函数,有点类似Pandas,但这种函数的缺点是可读性比较差,尤其是代码达到几百行的时候(捂脸)。所以…
mapreduce和spark的原理及区别
Mapreduce和spark是数据处理层两大核心,了解和学习大数据必须要重点掌握的环节,根据自己的经验和大家做一下知识的分享。 首先了解一下Mapreduce,它最本质的两个过程就是Map和Reduce,Map的应用在…
【Spark】---- Spark 硬件配置
存储系统 Spark任务需要从一些外部的存储系统加载数据(如:HDFS 或者 HBase),重要的是存储系统要接近Spark系统,我们有如下推荐: (1)如果可能,运行Spark在相同的HDFS节点,最简单…