第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本) – 段智华的博客 – …
标签:spark
Apache Spark相比Hadoop的优势
以下的话是由Apache Spark committer的Reynold Xin阐述。 从很多方面来讲,Spark都是MapReduce 模式的最好实现。比如从程序抽象的角度来看: 1、他抽象出Map/Reduc…
Spark Streaming和Spark Struct Streaming + Kafka环境部署测试
Kafka 单机环境搭建 从官网下载kafka_2.11-0.9.0.1和kafka_2.11-0.10.2.0两个版本, 这两个版本升级较大。而且对于Spark,有两个不同的jar包依赖,所以需要在测试环境中准备这两个…
Spark硬件配置及性能调研报告
Spark官方推荐硬件配置 存储系统 让Spark尽可能的与HDFS运行在同一节点上,最简单的方式是使用Sparkstandalone mode部署Spark,然后分配Spark和Hadoop的内存和CPU使用,避免冲突…
Spark+Jupyter=在线文本数据处理逻辑测试平台
前言 最近在学习Spark,除了原生的Scala以外,Spark还提供了一个pyspark支持Python。以前曾经搭过一个基于IPython notebook的在线代码运行平台,其中用到的numpy,scipy,mat…
第三章 Spark机制与原理
循序渐进学Spark 本书前面几章分别介绍了Spark的生态系统、Spark运行模式及Spark的核心概念RDD和基本算子操作等重要基础知识。 本章重点讲解Spark的主要机制原理,因为这是Spark程序得以高效执行的核…
单机版Spark在Mac上简装笔记[0]
之前在Windows上装,不顺利。这几天跟同时聊天,知道Mac上很简单。于是就试试看。(同时知道了Windows terminal比Mac terminal 慢得多不是我的错觉)结果真是超傻瓜,赶快记录下这个瞬间。 首先…
streaming
为什么要用消息队列?比如有很多数据源在采集产生数据,如果直接把数据扔给spark streaming,可能各个产生的频率,即压力大小不同,造成spark产生问题。消息队列高吞吐,如kafka,可解决这个问题。
Spark JDBC系列--读取优化
本文旨在介绍 Spark 通过JDBC读取数据时常用的一些优化手段 关于数据库索引 无论使用哪种JDBC API,spark拉取数据最终都是以select语句来执行的,所以在自定义分区条件或者指定的long型column…
Spark运行模式及命令示例
local单机模式: 结果xshell可见: ./bin/spark-submit –class org.apache.spark.examples.SparkPi –master local[1…
Spark读写HBase实践
Spark经常会读写一些外部数据源,常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作,做一个简单的Demo总结,方便后续开发查阅。 1.1 maven依赖 需要引入Hadoo…
Docker+Spark+Jupyter=文本数据处理逻辑测试平台容器化
写在前面 之前写过一篇“Spark+Jupyter=在线文本数据处理逻辑测试平台” [http://www.jianshu.com/p/bbd4190089e7] 这几天要把这玩意儿放到我自己的阿里云上线,供一些正在学习…