代码示例: val sample_data_combine_result=List( (0,(List(FitModel(4022,1447.92,-8.38983306721434,2.0)),1)), (1,(Lis…
标签:spark
Spark(四十五):Schema Registry
很多时候在流数据处理时,我们会将avro格式的数据写入到kafka的topic,但是avro写入到kafka的时候,数据有可能会与版本升级,也就是schema发生变化,此时如果消费端,不知道哪些数据的schema是使用升…
Spark笔记:RDD基本操作(下)
上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。 Spark是一个计算框架,是对mapreduc…
Spark笔记:RDD基本操作(上)
本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样…
Spark DataFrame基础操作
创建SparkSession和SparkContext val spark = SparkSession.builder.master("local").getOrCreate() val sc = spark.spar…
SparkSQL|字符串函数
字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: select length('abcedfg') from lxw_dual; 7 字符串反转函…
Spark 中的join方式(pySpark)
spark基础知识请参考spark官网:http://spark.apache.org/docs/1.2.1/quick-start.html 无论是m…
spark-submit提交参数设置
/apps/app/spark-1.6.1-bin-hadoop2.6/bin/spark-submit –class com.zdhy.zoc2.sparksql.core.Java…
Flume整合Spark Streaming
Spark版本1.5.2,Flume版本:1.6 Flume agent配置文件:spool-8.51.conf agent.sources = source1 agent.channels …
文档主题生成模型(LDA)算法原理及Spark MLlib调用实例(Scala/Java/python)
文档主题生成模型(LDA) 算法介绍: LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇…
重要|Spark driver端得到executor返回值的方法
spark 使用的时候,总有些需求比较另类吧,比如有球友问过这样一个需求: 浪尖,我想要在driver端获取executor执行task返回的结果,比如task是个规则引擎, 我想知道每条规则命中了几条数据,请问这个怎么…
Spark:reduceByKey函数的用法
reduceByKey函数API: def reduceByKey(partitioner: Partitioner, func: JFunction2[V, V, V]): JavaPairRDD[K, V] def …