Spark调优 由于大部分Spark计算都是在内存中完成的,所以Spark程序的瓶颈可能由集群中任意一种资源导致,如:CPU、网络带宽、或者内存等。最常见的情况是,数据能装进内存,而瓶颈是网络带宽;当然,有时候我们也需要…
分类:Spark
Spark DataFrame ETL教程
前言 ETL是 Extract-Transform-Load的缩写,也就是抽取-转换-加载,在数据工作中是非常重要的部分。实际上,ETL就是一个对数据进行批处理的过程,一个ETL程序就是一个批处理脚本,执行时能将一堆数据…
Spark文档阅读(RDD/SQL/DataFrame/Dataset等)
读完了Spark官网的 RDD Programming Guide 和 Spark SQL, DataFrames and Datasets Guide , 记录要点 RDD Programming Guide RDD编…
Spark:求出分组内的TopN
制作测试数据源: c1 85 c2 77 c3 88 c1 22 c1 66 c3 95 c3 54 c2 91 c2 66 c1 54 c1 65 c2 41 c4 65 spark scala实现代码: import…
关于Spark中的多任务并发处理(Concurrency)
文章目录 Spark中的多任务处理 一个顺序作业的例子 一个有缺陷的并发作业的例子 一个优化过的并发作业的例子 参考资料 Spark中的多任务处理 Spark的一个非常常见的用例…
手工搭建 Spark 数据分析平台
我们的 应用 在线上也已经运行了快一年了,时常想分析一下过去积累的数据,比如用户的类型,访问路径,转化漏斗等等。 相对比较好做的也就是一点简单的记录在mysql中的数据。 对于用户运营同事想要的基于uv的留存率等数据,之…
安装spark2.4
先安装scala 下载scala-2.11.12.tgz 解压 tar -zxf scala-2.11.12.tgz 移动至想要的目录 mv scala-2.11.12 /usr/scala/ 设置环境变量 gedit …
Spark RDD练习
Spark RDD练习 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"…
spark是什么?
spark最初是由伯克利大学的amplab于2009年提交的一个项目,现在已经是Apache软件基金会最活跃的项目,对于spark,apache给出的官方定义是:spark是一个快速和通用的大数据处理引擎。可以理解为一个…
Spark2.x(五十四):在spark structured streaming下测试ds.selectExpr(),当返回列多时出现卡死问题。
业务需求,有一部分动态字段,需要在程序中动态加载并解析表达式: 实现方案1):在MapFunction、MapPartitionFunction中使用FelEngine进行解析: FelEngine fel = FelE…
spark学习(RDD案例实战)
练习0(并行化创建RDD) 先启动spark-shell 通过并行化生成rdd scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888)) rdd…
两种模型选择和超参数调整方法及Spark MLlib使用示例(Scala/Java/Python)
机器学习调试:模型选择和超参数调整 模型选择(又名超参数调整) 在机器学习中非常重要的任务就是模型选择,或者使用数据来找到具体问题的最佳的模型和参数,这个过程也叫做调试。调试可以在独立的如逻辑回归等估计器中完成,也可以在…