Kafka producer有三种ack机制 初始化producer时在config中进行配置 0 意味着producer不等待broker同步完成的确认,继续发送下一条(批)信息 提供…
分类:Spark
spark的三种部署模式
spark在虚拟机的三种部署模式 1、local 本地模式 –master local 2、standalone spark自带的运行模式 –master spark://hdp1:7077(hd…
Spark快速大数据分析(一)
楔子 Spark快速大数据分析 前3章内容,仅作为学习,有断章取义的嫌疑。如有问题参考原书 Spark快速大数据分析 以下为了打字方便,可能不是在注意大小写 1 Spark数据分析导论 1.1 Spark是什么 Spar…
Spark对数据进行清洗,将数据保存到本地并写入Mysql数据库 | 案例
通过编写Spark程序统计各城市的住宿场所数量和房间数量,并根据城市房间数量降序排列,输出前10条统计结果,将统计结果保存至本地。同时在MySQL创建数据库并在其中创建table3_2,将统计结果写入表table3_2中…
hive 实现将多行记录合并成一行:concat_ws,collect_set,collect_list
数据表的记录如下 5112 960024 5112 960025 5112 960026 5112 960027 5112 960028 5113 960043 5113 960044 5113 960045 5113 …
学习spark sql执行计划(一)
学习连接: https://blog.csdn.net/zyzzxycj/article/details/82704713 http://www.jasongj.com/spark/rbo/ 本文所述内容均…
spark standalone 读取 HDFS 数据本地性异常
在分布式计算中,为了提高计算速度,数据本地性是其中重要的一环。 不过有时候它同样也会带来一些问题。 文章目录 一.问题描述 二.解决方案 三.数据本地性的副作用 一.问题描述 在分布式计算中,大多数情况下要做到移动计算而…
SparkSQL 实现UV & PV计算
背景 前两天面试中遇到一个比较基础的计算UV & PV 的问题。思路比较简单,最重要的是 手写代码 ,平常我们都是在IDE 中编写代码,手写代码的时候大多是情况下都是使用IDE 的提示,遇到手写的时候,就算这种简…
使用Spark计算PV、UV
版权声明:本文为博主原创文章,未经博主允许不得转载。 日志字段格式: id,ip,url,ref,cookie,time_stamp 把日志文件放到HDFS。仅取了1000行。 [plain] view pl…
spark1.6学习(四)——计算pv和uv的例子
本文主要介绍如何通过spark进行pv和uv的计算。一般我们经常会计算pv和uv,那么我们计算pv和uv的时候是不是性能最优的呢? 好,我们开始看例子: 首先看一下数据: {"flag":"sendTemp…
SparkStreaming实时计算pv和uv,注意事项以及生产问题
SparkStreaming实时计算pv和uv,注意事项以及生产问题 1、项目流程 2、具体过程 1)pv的计算 2)uv的计算 3)结果保存到数据库 4)数据容错 5)保存offset到mysql 6)日志 实时统计p…
pyspark列分割(列数据拆分)
在pyspark里进行新账期数据的预测后,生成预测的结果。见下图: probability 格式为 [0.625,0.365],但我需要 probability 里预测为1的概率值,所以得处理一下,经过实践,总结两种方法…