环境部署
基本常识
- spark中的rdd的持久化
- Spark入门实战系列–9.Spark图计算GraphX介绍及实例
- 《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南
- Spark1.0.x入门指南
- 关于SPARK_WORKER_MEMORY和SPARK_MEM
算法架构
- Spark GraphX
- 进化的Spark, 从DataFrame说起
- BlockManager原理和源码解密
- Spark中任务处理的Stage划分和Task最佳位置算法
- Tachyon—基于内存的分布式存储系统
Debug
park升级到spark2以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包。 修改/<PathToHive>/bin/hive文件,将加载原来的lib/spark-assembly-*.jar`替换成jars/*.jar,就不会出现这样的问题。
检查一下Hadoop集群是否正常启动
- Spark Executor Driver资源调度小结
- initial job has not accepted any resources的spark错误解决办法
- spark-submit 报错 Initial job has not accepted any resources
- spark Error initializing SparkContext System memory 466092032 must be at least 471859200.
可靠保证
- 【容错篇】Spark Streaming的还原药水——Checkpoint
- Spark:Master High Availability(HA)高可用配置的2种实现 – BYRHuangQiang
- Spark技术内幕:Master基于ZooKeeper的High Availability(HA)源码实现