流式计算概述 常规计算引擎分类 批处理 • 高吞吐,低延迟 • 面向静态数据集合的处理 • 分钟甚至小时级别延迟 • 比如MR, Spark 流式计算 • 面向行级别数据处理 • 毫秒级延迟 • 比如storm 流式计算…
标签:spark
spark写数据到mysql第二弹
需求 分析的中间数据, 很多需要持久化到关系型数据库, 以便后续的二次分析, 在官方给出insert指定字段的接口之前我先实现自己的方法吧。 背景 之前有一篇文章 spark SQL操作之关系型数据库 简单讲解…
Structured Spark Streaming - explode 多列
package ohmysummer import ohmysummer.model.SourceCan import ohmysummer.pipeline.kafka.WmKafkaDeserializer impo…
Spark消息总线实现
消息总线概述 消息总线是Spark内部进行消息传递,触发事件的框架,消息总线的核心是由三个抽象的对象组成: Event: 定义了一个事件; Listener:定义了一个监听器,是用于对Event作出响应的实体; Bus:…
spark提交参数解析
上一节学习了Spark源码的编译方法,这一节我们跟踪一下spark-shell的启动. spark-shell是spark提供一个控制台,通过它我们可以方便的学习spark的API,类似于Scala的REPL. spar…
# 数据分析最佳实践 - spark Dataset/DataFrame数据存取及处理
0x01前言 官网上的spark with scala 的文档比较难理解,内容也特别少。初学遇到很多实际情况,会很迷茫怎么处理数据。 在此把自己踩的坑列一列,供初学者参考。 大牛请轻拍,有问题欢迎指教。 0x02 理解 …
Spark运行机制与原理详解目录
https://github.com/JerryLead/SparkInternals Spark Internals Spark Version: 1.0.2 Doc Version: 1.0.2.0 Authors …
Spark 性能优化方案
Spark 性能优化方案(转自李智慧的Spark性能优化方案): Spark性能测试工具 •Spark性能测试基准程序Benchmark –https://github.com/intel-hadoop/HiBench …
Spark入门网络课程推荐
现在大数据处理领域最火爆的非Spark莫属,今年夏天Berkeley大学开放了两门Spark入门网络课程。跟着学习了一下,感觉非常适合入门,课程同时会涉及到数据分析方法、ML的一些基础算法。 两门课程如下: 第一门 CS…
Spark实例-DataFrame加载和保存数据
Spark加载不同格式文件时,调用sqlContext.read.format(“”).load方法 val peopleDF=sqlContext.read.format("json").loa…
Spark访问与HBase关联的Hive表
Spark访问与Hbase关联的Hive表需要引用jar 包 hive-hbase-handler-<version>.jar 不然要报错 MetaException(message:java.lang.Cl…
Spark读写HBase之使用Spark自带的API以及使用Bulk Load将大量数据导入HBase
1. 需要的jar包依赖 <properties> <spark.version>2.3.0</spark.version> <hbase.version>1.2.6<…