标签：spark

JAVA:通过poi读取excel

POI是一个apache开源的jar包，可以通过搜索 java POI找到官网，并下载开发包. 包含的功能：可以读取excel2003,2007,2010等。读取excel2007/2010的代码： public s…

1、Rest服务　　Spark源为了方便用户对任务做监控，从1.4版本启用Rest服务，用户可以通过访问地址，得到application的运行状态。　　Spark的REST API返回的信息是JSON格式的，开发者们…

Spark调优由于大部分Spark计算都是在内存中完成的，所以Spark程序的瓶颈可能由集群中任意一种资源导致，如：CPU、网络带宽、或者内存等。最常见的情况是，数据能装进内存，而瓶颈是网络带宽；当然，有时候我们也需要…

前言 ETL是 Extract-Transform-Load的缩写，也就是抽取-转换-加载，在数据工作中是非常重要的部分。实际上，ETL就是一个对数据进行批处理的过程，一个ETL程序就是一个批处理脚本，执行时能将一堆数据…

读完了Spark官网的 RDD Programming Guide 和 Spark SQL, DataFrames and Datasets Guide , 记录要点 RDD Programming Guide RDD编…

制作测试数据源： c1 85 c2 77 c3 88 c1 22 c1 66 c3 95 c3 54 c2 91 c2 66 c1 54 c1 65 c2 41 c4 65 spark scala实现代码： import…

文章目录 Spark中的多任务处理一个顺序作业的例子一个有缺陷的并发作业的例子一个优化过的并发作业的例子参考资料 Spark中的多任务处理 Spark的一个非常常见的用例…

我们的应用在线上也已经运行了快一年了，时常想分析一下过去积累的数据，比如用户的类型，访问路径，转化漏斗等等。相对比较好做的也就是一点简单的记录在mysql中的数据。对于用户运营同事想要的基于uv的留存率等数据，之…

先安装scala 下载scala-2.11.12.tgz 解压 tar -zxf scala-2.11.12.tgz 移动至想要的目录 mv scala-2.11.12 /usr/scala/ 设置环境变量 gedit …

Spark RDD练习 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"…

spark最初是由伯克利大学的amplab于2009年提交的一个项目，现在已经是Apache软件基金会最活跃的项目，对于spark,apache给出的官方定义是：spark是一个快速和通用的大数据处理引擎。可以理解为一个…

业务需求，有一部分动态字段，需要在程序中动态加载并解析表达式：实现方案1）：在MapFunction、MapPartitionFunction中使用FelEngine进行解析： FelEngine fel = FelE…