分类：Spark

[LeetCode] 448. 找到所有数组中消失的数字（思维）

题目给定一个范围在 1 ≤ a[i] ≤ n ( n = 数组大小 ) 的整型数组，数组中的元素一些出现了两次，另一些只出现一次。找到所有在 [1, n] 范围之间没有出现在数组中的数字。您…

RDD 的转换可以产生新的 RDD 如上图，外圈是 RDD 的转换，内圈红色 RDD 是转换产生的新 RDD。按颜色区分转换：绿色是单 RDD 窄依赖转换黑色是多 RDD 窄依赖转换紫色是 KV 洗牌型转换黄色…

kafka测试数据生成： package com.dx.kafka; import java.util.Properties; import java.util.Random; import org.apache.kaf…

#构造case class，利用反射机制隐式转换 scala> import spark.implicits._ scala> val rdd= sc.textFile("input/textdata.txt…

# MainApplicationProperties # --master yarn --deploy-mode client 下的配置， client 模式表示，driver 是在本地机器上跑的，thrift ser…

作者：Xiaoyu Ma ，大数据工程师大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，…

行列之间的互相转换是ETL中的常见需求，在Spark SQL中，行转列有内建的PIVOT函数可用，没什么特别之处。而列转行要稍微麻烦点。本文整理了2种可行的列转行方法，供参考。本文链接：https://w…

简单理解为：Receiver方式是通过zookeeper来连接kafka队列，Direct方式是直接连接到kafka的节点上获取数据 Receiver 使用Kafka的高层次Consumer API来实现。r…

hive on spark 性能远比hive on mr 要好，而且提供了一样的功能。用户的sql无需修改就可以直接运行于hive on spark。 udf函数也是全部支持。本文主要是想讲hive on spark …

环境变量含义 SPARK_MASTER_IP master实例绑定的IP地址，例如，绑定到一个公网IP SPARK_MASTER_PORT mater实例绑定的端口（默认7077） SPARK_MASTER_WEBUI…

问题描述：在使用spark过程中，有时会因为数据增大，而出现下面两种错误: java.lang.OutOfMemoryError: Java heap space java.lang.OutOfMemoryError：…

scala> val text=spark.read.textFile(“/tmp/20171024/tian.txt”)text: org.apache.spark.sql.…