分类：Spark

Spark+Jupyter=在线文本数据处理逻辑测试平台

前言最近在学习Spark，除了原生的Scala以外，Spark还提供了一个pyspark支持Python。以前曾经搭过一个基于IPython notebook的在线代码运行平台，其中用到的numpy，scipy，mat…

循序渐进学Spark 本书前面几章分别介绍了Spark的生态系统、Spark运行模式及Spark的核心概念RDD和基本算子操作等重要基础知识。本章重点讲解Spark的主要机制原理，因为这是Spark程序得以高效执行的核…

之前在Windows上装，不顺利。这几天跟同时聊天，知道Mac上很简单。于是就试试看。（同时知道了Windows terminal比Mac terminal 慢得多不是我的错觉）结果真是超傻瓜，赶快记录下这个瞬间。首先…

基于apache hadoop的配置安装安装相关的大数据组件，包括： hadoop 2.6.2 spark 1.6.1 hbase 1.0.0 zookeeper 3.4.10 janusgraph 0.2.0 环境变…

为什么要用消息队列?比如有很多数据源在采集产生数据，如果直接把数据扔给spark streaming，可能各个产生的频率，即压力大小不同，造成spark产生问题。消息队列高吞吐，如kafka，可解决这个问题。

本文旨在介绍 Spark 通过JDBC读取数据时常用的一些优化手段关于数据库索引无论使用哪种JDBC API，spark拉取数据最终都是以select语句来执行的，所以在自定义分区条件或者指定的long型column…

两者等价,可看作把sql语句直接拿来使用 df1.selectExpr("*","(DEST_COUNTRY_NAME = ORIGIN_COUNTRY_NAME) as withincountry").show(5) …

local单机模式：结果xshell可见： ./bin/spark-submit –class org.apache.spark.examples.SparkPi –master local[1…

在具体的实现上，Shuffle经历了Hash、Sort、Tungsten-Sort三阶段，shuffle共有三种，别人讨论的是hash shuffle，这是最原始的实现，曾经有两个版本: * 第一版是每个map产生r个文…

一、我们先要了解大数据的工作方向 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他（数据挖掘本质算是机器学习，不过和数据相关，也可以理解为大数据的一个方向吧）二、大数据工程师的技能要求必须技能10…

Spark经常会读写一些外部数据源，常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作，做一个简单的Demo总结，方便后续开发查阅。 1.1 maven依赖需要引入Hadoo…

写在前面之前写过一篇“Spark+Jupyter=在线文本数据处理逻辑测试平台” [http://www.jianshu.com/p/bbd4190089e7] 这几天要把这玩意儿放到我自己的阿里云上线，供一些正在学习…