标签：spark

流式计算概述和Spark Streaming tips

流式计算概述常规计算引擎分类批处理 • 高吞吐，低延迟 • 面向静态数据集合的处理 • 分钟甚至小时级别延迟 • 比如MR, Spark 流式计算 • 面向行级别数据处理 • 毫秒级延迟 • 比如storm 流式计算…

需求分析的中间数据, 很多需要持久化到关系型数据库, 以便后续的二次分析, 在官方给出insert指定字段的接口之前我先实现自己的方法吧。背景之前有一篇文章 spark SQL操作之关系型数据库简单讲解…

package ohmysummer import ohmysummer.model.SourceCan import ohmysummer.pipeline.kafka.WmKafkaDeserializer impo…

消息总线概述消息总线是Spark内部进行消息传递，触发事件的框架，消息总线的核心是由三个抽象的对象组成： Event：定义了一个事件； Listener：定义了一个监听器，是用于对Event作出响应的实体； Bus：…

上一节学习了Spark源码的编译方法，这一节我们跟踪一下spark-shell的启动. spark-shell是spark提供一个控制台，通过它我们可以方便的学习spark的API，类似于Scala的REPL. spar…

0x01前言官网上的spark with scala 的文档比较难理解,内容也特别少。初学遇到很多实际情况，会很迷茫怎么处理数据。在此把自己踩的坑列一列，供初学者参考。大牛请轻拍，有问题欢迎指教。 0x02 理解 …

https://github.com/JerryLead/SparkInternals Spark Internals Spark Version: 1.0.2 Doc Version: 1.0.2.0 Authors …

Spark 性能优化方案(转自李智慧的Spark性能优化方案)： Spark性能测试工具 •Spark性能测试基准程序Benchmark –https://github.com/intel-hadoop/HiBench …

现在大数据处理领域最火爆的非Spark莫属，今年夏天Berkeley大学开放了两门Spark入门网络课程。跟着学习了一下，感觉非常适合入门，课程同时会涉及到数据分析方法、ML的一些基础算法。两门课程如下：第一门 CS…

Spark加载不同格式文件时，调用sqlContext.read.format(“”).load方法 val peopleDF=sqlContext.read.format("json").loa…

Spark访问与Hbase关联的Hive表需要引用jar 包 hive-hbase-handler-<version>.jar 不然要报错 MetaException(message:java.lang.Cl…

1. 需要的jar包依赖 <properties> <spark.version>2.3.0</spark.version> <hbase.version>1.2.6<…