前言 最近在学习Spark,除了原生的Scala以外,Spark还提供了一个pyspark支持Python。以前曾经搭过一个基于IPython notebook的在线代码运行平台,其中用到的numpy,scipy,mat…
分类:Spark
第三章 Spark机制与原理
循序渐进学Spark 本书前面几章分别介绍了Spark的生态系统、Spark运行模式及Spark的核心概念RDD和基本算子操作等重要基础知识。 本章重点讲解Spark的主要机制原理,因为这是Spark程序得以高效执行的核…
单机版Spark在Mac上简装笔记[0]
之前在Windows上装,不顺利。这几天跟同时聊天,知道Mac上很简单。于是就试试看。(同时知道了Windows terminal比Mac terminal 慢得多不是我的错觉)结果真是超傻瓜,赶快记录下这个瞬间。 首先…
janusgraph gremlin-hadoop spark on yarn数据导入
基于apache hadoop的配置安装 安装相关的大数据组件,包括: hadoop 2.6.2 spark 1.6.1 hbase 1.0.0 zookeeper 3.4.10 janusgraph 0.2.0 环境变…
streaming
为什么要用消息队列?比如有很多数据源在采集产生数据,如果直接把数据扔给spark streaming,可能各个产生的频率,即压力大小不同,造成spark产生问题。消息队列高吞吐,如kafka,可解决这个问题。
Spark JDBC系列--读取优化
本文旨在介绍 Spark 通过JDBC读取数据时常用的一些优化手段 关于数据库索引 无论使用哪种JDBC API,spark拉取数据最终都是以select语句来执行的,所以在自定义分区条件或者指定的long型column…
Spark SQL的selectExpr
两者等价,可看作把sql语句直接拿来使用 df1.selectExpr("*","(DEST_COUNTRY_NAME = ORIGIN_COUNTRY_NAME) as withincountry").show(5) …
Spark运行模式及命令示例
local单机模式: 结果xshell可见: ./bin/spark-submit –class org.apache.spark.examples.SparkPi –master local[1…
Spark 2.1.0 - Shuffle逻辑分析
在具体的实现上,Shuffle经历了Hash、Sort、Tungsten-Sort三阶段,shuffle共有三种,别人讨论的是hash shuffle,这是最原始的实现,曾经有两个版本: * 第一版是每个map产生r个文…
8年京东大数据架构师推荐的大数据开发学习路线
一、我们先要了解大数据的工作方向 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 二、大数据工程师的技能要求 必须技能10…
Spark读写HBase实践
Spark经常会读写一些外部数据源,常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作,做一个简单的Demo总结,方便后续开发查阅。 1.1 maven依赖 需要引入Hadoo…
Docker+Spark+Jupyter=文本数据处理逻辑测试平台容器化
写在前面 之前写过一篇“Spark+Jupyter=在线文本数据处理逻辑测试平台” [http://www.jianshu.com/p/bbd4190089e7] 这几天要把这玩意儿放到我自己的阿里云上线,供一些正在学习…