分类：Spark

Spark官方调优文档翻译（转载）

Spark调优由于大部分Spark计算都是在内存中完成的，所以Spark程序的瓶颈可能由集群中任意一种资源导致，如：CPU、网络带宽、或者内存等。最常见的情况是，数据能装进内存，而瓶颈是网络带宽；当然，有时候我们也需要…

前言 ETL是 Extract-Transform-Load的缩写，也就是抽取-转换-加载，在数据工作中是非常重要的部分。实际上，ETL就是一个对数据进行批处理的过程，一个ETL程序就是一个批处理脚本，执行时能将一堆数据…

读完了Spark官网的 RDD Programming Guide 和 Spark SQL, DataFrames and Datasets Guide , 记录要点 RDD Programming Guide RDD编…

制作测试数据源： c1 85 c2 77 c3 88 c1 22 c1 66 c3 95 c3 54 c2 91 c2 66 c1 54 c1 65 c2 41 c4 65 spark scala实现代码： import…

文章目录 Spark中的多任务处理一个顺序作业的例子一个有缺陷的并发作业的例子一个优化过的并发作业的例子参考资料 Spark中的多任务处理 Spark的一个非常常见的用例…

我们的应用在线上也已经运行了快一年了，时常想分析一下过去积累的数据，比如用户的类型，访问路径，转化漏斗等等。相对比较好做的也就是一点简单的记录在mysql中的数据。对于用户运营同事想要的基于uv的留存率等数据，之…

先安装scala 下载scala-2.11.12.tgz 解压 tar -zxf scala-2.11.12.tgz 移动至想要的目录 mv scala-2.11.12 /usr/scala/ 设置环境变量 gedit …

Spark RDD练习 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"…

spark最初是由伯克利大学的amplab于2009年提交的一个项目，现在已经是Apache软件基金会最活跃的项目，对于spark,apache给出的官方定义是：spark是一个快速和通用的大数据处理引擎。可以理解为一个…

业务需求，有一部分动态字段，需要在程序中动态加载并解析表达式：实现方案1）：在MapFunction、MapPartitionFunction中使用FelEngine进行解析： FelEngine fel = FelE…

练习0（并行化创建RDD）先启动spark-shell 通过并行化生成rdd scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888)) rdd…

机器学习调试：模型选择和超参数调整模型选择（又名超参数调整）在机器学习中非常重要的任务就是模型选择，或者使用数据来找到具体问题的最佳的模型和参数，这个过程也叫做调试。调试可以在独立的如逻辑回归等估计器中完成，也可以在…