安装命令pip install python-gflags 使用示例: import gflags FLAGS = gflags.FLAGS gflags.DEFINE_string('name', 'ming', 't…
标签:spark
python库--pandas--文本文件读取
.read_table() / read_csv() filepath_or_buffer 文件路径 sep=’\t’ 分隔符. 设置为N, 将尝试自动确定 delimiter=…
用Spark学习FP Tree算法和PrefixSpan算法
在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没…
Spark Streaming--实战篇
摘要: Sprak Streaming属于Saprk API的扩展,支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(…
spark在集群上运行
1.spark在集群上运行应用的详细过程 (1)用户通过spark-submit脚本提交应用 (2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法 (3)驱动器程序与集群管理器通信,申请资源以…
Kafka:ZK+Kafka+Spark Streaming集群环境搭建(七)针对hadoop2.9.0启动DataManager失败问题
DataManager启动失败 启动过程中发现一个问题:slave1,slave2,slave3都是只启动了DataNode,而DataManager并没有启动: [spark@slave1 hadoop-2.9.0]$…
Spark 2017欧洲技术峰会摘要(Engineering 分类)
下载全部视频和PPT,请关注公众号(bigdata_summit),并点击“视频下载”菜单 Apache Spark Pipelines in the Cloud with Alluxio by Gene Pang, A…
Spark入门案例
Spark源码是利用Scala编写,因此用Scala编写Spark程序具有天然的优势,但目前Java仍是主流语言,且Scala和Java程序都是运行在JVM上的。使用JDK8的Lamda expression和Scala…
pyspark系列--字符串函数
字符串函数 1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数 1. 字符串拼接 from pyspark.sql.function…
决策树回归算法介绍及Spark MLlib调用实例(Scala/Java/python)
决策树回归 算法介绍: 决策树以及其集成算法是机器学习分类和回归问题中非常流行的算法。因其易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质被广泛使用。树集成算法如随机森林以及boosting算法几乎是解决…
spark partition 理解 / coalesce 与 repartition的区别
一.spark 分区 partition的理解: spark中是以vcore级别调度task的。 如果读取的是hdfs,那么有多少个block,就有多少个partition 举例来说:sparksql 要读表T, 如果表…
Spark SQL内置函数
Spark SQL内置函数官网API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24 …