标签：spark

spark2.1：flatMap的用法

代码示例： val sample_data_combine_result=List( (0,(List(FitModel(4022,1447.92,-8.38983306721434,2.0)),1)), (1,(Lis…

很多时候在流数据处理时，我们会将avro格式的数据写入到kafka的topic，但是avro写入到kafka的时候，数据有可能会与版本升级，也就是schema发生变化，此时如果消费端，不知道哪些数据的schema是使用升…

　　上一篇里我提到可以把RDD当作一个数组，这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。　　Spark是一个计算框架，是对mapreduc…

　　本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家可以就把RDD当作一个数组，这样…

创建SparkSession和SparkContext val spark = SparkSession.builder.master("local").getOrCreate() val sc = spark.spar…

字符串长度函数：length 语法: length(string A) 返回值: int 说明：返回字符串A的长度举例： select length('abcedfg') from lxw_dual; 7 字符串反转函…

spark基础知识请参考spark官网：http://spark.apache.org/docs/1.2.1/quick-start.html 无论是m…

/apps/app/spark-1.6.1-bin-hadoop2.6/bin/spark-submit –class com.zdhy.zoc2.sparksql.core.Java…

Spark版本1.5.2，Flume版本:1.6 Flume agent配置文件：spool-8.51.conf agent.sources = source1 agent.channels …

文档主题生成模型(LDA) 算法介绍： LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇…

spark 使用的时候，总有些需求比较另类吧，比如有球友问过这样一个需求：浪尖，我想要在driver端获取executor执行task返回的结果，比如task是个规则引擎，我想知道每条规则命中了几条数据，请问这个怎么…

reduceByKey函数ＡＰＩ： def reduceByKey(partitioner: Partitioner, func: JFunction2[V, V, V]): JavaPairRDD[K, V] def …