使用scala 因为spark的源代码就是scala,想成为专家就必须会scala,尤其是RDD的代码大量的都是基于scala集合库的概念,并且immutable,lambda等scala相关的语言设计概念也是天生的体现…
标签:spark
spark周边项目之Livy
无Spark Client环境的部署实现 首先,熟悉spark开发的人都知道spark的部署模式分为三种,分别为Local、Standalone、YARN,通过YARN又分为YARN-Client和YARN-Cluste…
hive on spark的调优点
hive on spark 性能远比hive on mr 要好,而且提供了一样的功能。用户的sql无需修改就可以直接运行于hive on spark。 udf函数也是全部支持。 本文主要是想讲hive on spark …
用 Apache Spark 和 TensorFlow 进行深度学习
本文由 Tim Hunter 发表于a href=”https://databricks.com/blog/category/engineering“> ENGINEERING BLOG 本…
Spark
什么是Spark 是一个大规模数据处理的统一分析引擎 Spark的四大特性 速度快 编程简单 通用性 到处运行 SparkConf对象 配置运行模式 local 本地。standalone spark自带的分布式计算框架…
Hadoop和Spark的异同
解决问题的层面不一样 Hadoop和Spark两者都是大数据框架,但是各自存在的目的不尽相同。 Hadoop实质上是解决大数据大到无法在一台计算机上进行存储、无法在要求的时间内进行处理的问题,是一个分布式数据基础设施。 …
pyspark系列--pyspark读写dataframe
pyspark读写dataframe 1. 连接spark 2. 创建dataframe 2.1. 从变量创建 2.2. 从变量创建 2.3. 读取json 2.4. 读取csv 2.5. 读取MySQL 2.6. 从p…
Spark SQL在HBase的查询性能优化
云湖湖导读: Spark与HBase是当今非常火的两个大数据开源项目,一个负责数据的分析处理,一个负责数据的存储。 近年来,Spark on HBase尤其是Spark SQL on HBase成为许多企业云上大数据与A…
Spark 快速教程及在线体验
本篇文档搭配了 Spark在线环境,可以直接在线体验。Apache Spark是为大规模数据处理而设计的快速通用的运算框架,最初由AMPLab所开发,使用了内存运算技术。相对于Hadoop的MapReduce会在运行完工…
Spark中的RDD、DataFrame和DataSet讲解
本文作为Spark SQL的第二篇文章,主要讲述一下RDD、DataFrame/DataSet之间的关系及相互转换。 文章主要从以下几个方面进行阐述: 1、Spark中的模块 2、什么是DataFrame 3、RDD和D…
深入解析Spark中的RPC
前言 Spark是一个快速的、通用的分布式计算系统,而分布式的特性就意味着,必然存在节点间的通信,本文主要介绍不同的Spark组件之间是如何通过RPC(Remote Procedure Call) 进行点对点通信的。分为…
Spark 面试总结
一、Spark三种分布式部署模式: 1.1、Spark整体架构: 1.2、spark运行流程: 1、构建Spark Application的运行环境,启动SparkContext 2、SparkContext向资源管理器…