结合自身面试经历,包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类: 一、spark相关 1.Spark的Shuffle原理及调优? 2.hadoop和spark使用场景? 3.spark如…
Spark On YARN内存分配
原文地址: http://blog.javachen.com/2015/06/09/memory-in-Spark-on-yarn.html 本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研…
集群上运行spark
1.启动hadoop与spark。 2.独立集群管理器 (1)spark-submit(jar) 向独立集群管理器提交应用,需要把spark://master:7077作为主节点参数递给spark-submit。下面我们…
【Spark】Spark 运行架构--YARN-Client
本篇结构: YARN-Client 工作流程图 YARN-Client 工作流程 YARN-Client 模式启动类图 YARN-Client 实现原理 YARN-Client 作业运行调用图 一、YARN-Client…
spark datasets 优势
1. 比rdd更省内存 2. 执行效率更高 3.接口友好,使用方便 mark: https://databricks.com/blog/2016/01/04/introducing-apache-spark-datase…
学习大数据开发,这三个名词Hadoop,Spark,Kafka你都知道背后的故事吗?
Hadoop 说起 hadoop ,可能现在许多人都不会陌生,但读就不一定读的对了。 Hadoop的发音是 [hædu:p]。 Hadoop这个名字是Hadoop项目创建者Doug Cutting 的儿子的一只玩具的名字…
Spark的安装(基于Mac)
一、简介 1.1内容 在mac电脑上成功安装spark(不用预先安装hadoop),并在jupyter上使用pyspark来操作spark。 1.2 知识点 jdk的安装 spark和pyspark的安装 虚拟环境的内核…
Spark运行机制与原理详解目录
https://github.com/JerryLead/SparkInternals Spark Internals Spark Version: 1.0.2 Doc Version: 1.0.2.0 Authors …
Spark Pair RDD基本操作
Pair RDD基本操作 虽然大部分Spark的RDD操作都支持所有种类的对象,但是有少部分特殊的操作只能作用于键值对类型的RDD。这类操作中最常见的就是分布的shuffle操作,比如将元素通过键来分组或聚集计算。在Py…
Spark入门教程(五)创建弹性分布式数据集Rdd以及Transformation操作
本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合! 什么是弹性分布式数据集Rdd? 概念:RDD(Resilient Distributed Datasets)简单来说,就是Spark中元素的集合,如数组、集合、…
『 Spark 』5. 这些年,你不能错过的 spark 学习资源
『 Spark 』5. 这些年,你不能错过的 spark 学习资源 – 简书 http://www.jianshu.com/p/59c54b46577b 原文链接:『 Spark 』5. 这些年,你不能错过的…
spark实时处理hdfs流数据
项目说明 Spark构建一个实时数据处理及展示系统 流数据数据处理:scala 调用spark-SQL:python 如图: Paste_Image.png 问题总结 1、spark-streaming流处理 2、sbt…