分类：Spark

spark-streaming2

VectorSlicer 算法介绍： VectorSlicer是一个转换器输入特征向量，输出原始特征向量子集。VectorSlicer接收带有特定索引的向量列，通过对这些索引的值进行筛选得到新的向量集。可接受如下两种索引…

共享变量通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在…

知识点1：Spark访问HIVE上面的数据　　配置注意点：. 　　　　1.拷贝mysql-connector-java-5.1.38-bin.jar等相关的jar包到你${spark_home}/lib中（spark2…

欢迎转载，转载请注明出处，徽沪一郎。楔子 Hive是基于Hadoop的开源数据仓库工具，提供了类似于SQL的HiveQL语言，使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进…

浅谈Spark中广播变量广播变量的好处广播变量的好处，不需要每个task带上一份变量副本，而是变成每个节点的executor才一份副本。这样的话，就可以让变量产生的副本大大减少。广播变量的用法广播变量用法很简单…

1.hello world程序 object HelloWorld { def main(args: Array[String]) { println("Hello,World!") } } 注意语句末尾的分号通常是可…

从spark1.2 到spark1.3，spark SQL中的SchemaRDD变为了DataFrame，DataFrame相对于SchemaRDD有了较大改变，同时提供了更多好用且方便的API。DataFrame将数据…

Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是…

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成，Redis使用阿里云数据库Redis。创建服务我们以EMR-3.21.0版…

推送avro格式数据到topic 源代码：https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/java/es/aco…

mysql jdbc driver下载地址https://dev.mysql.com/downloads/connector/j/ 在spark中使用jdbc1.在 spark-env.sh 文件中加入:export S…