标签：spark

22list『DT_Spark 』第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本)

第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本) – 段智华的博客 – …

以下的话是由Apache Spark committer的Reynold Xin阐述。　　从很多方面来讲，Spark都是MapReduce 模式的最好实现。比如从程序抽象的角度来看：　　1、他抽象出Map/Reduc…

Kafka 单机环境搭建从官网下载kafka_2.11-0.9.0.1和kafka_2.11-0.10.2.0两个版本，这两个版本升级较大。而且对于Spark，有两个不同的jar包依赖，所以需要在测试环境中准备这两个…

Spark官方推荐硬件配置存储系统让Spark尽可能的与HDFS运行在同一节点上，最简单的方式是使用Sparkstandalone mode部署Spark，然后分配Spark和Hadoop的内存和CPU使用，避免冲突…

前言最近在学习Spark，除了原生的Scala以外，Spark还提供了一个pyspark支持Python。以前曾经搭过一个基于IPython notebook的在线代码运行平台，其中用到的numpy，scipy，mat…

循序渐进学Spark 本书前面几章分别介绍了Spark的生态系统、Spark运行模式及Spark的核心概念RDD和基本算子操作等重要基础知识。本章重点讲解Spark的主要机制原理，因为这是Spark程序得以高效执行的核…

之前在Windows上装，不顺利。这几天跟同时聊天，知道Mac上很简单。于是就试试看。（同时知道了Windows terminal比Mac terminal 慢得多不是我的错觉）结果真是超傻瓜，赶快记录下这个瞬间。首先…

为什么要用消息队列?比如有很多数据源在采集产生数据，如果直接把数据扔给spark streaming，可能各个产生的频率，即压力大小不同，造成spark产生问题。消息队列高吞吐，如kafka，可解决这个问题。

本文旨在介绍 Spark 通过JDBC读取数据时常用的一些优化手段关于数据库索引无论使用哪种JDBC API，spark拉取数据最终都是以select语句来执行的，所以在自定义分区条件或者指定的long型column…

local单机模式：结果xshell可见： ./bin/spark-submit –class org.apache.spark.examples.SparkPi –master local[1…

Spark经常会读写一些外部数据源，常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作，做一个简单的Demo总结，方便后续开发查阅。 1.1 maven依赖需要引入Hadoo…

写在前面之前写过一篇“Spark+Jupyter=在线文本数据处理逻辑测试平台” [http://www.jianshu.com/p/bbd4190089e7] 这几天要把这玩意儿放到我自己的阿里云上线，供一些正在学习…