Spark相关文章索引(3)

环境部署

Spark2.1.0的Standalone模式部署

基本常识

  1. spark中的rdd的持久化
  2. Spark入门实战系列–9.Spark图计算GraphX介绍及实例
  3. 《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南
  4. Spark1.0.x入门指南
  5. 关于SPARK_WORKER_MEMORY和SPARK_MEM

算法架构

  1. Spark GraphX
  2. 进化的Spark, 从DataFrame说起
  3. BlockManager原理和源码解密
  4. Spark中任务处理的Stage划分和Task最佳位置算法
  5. Tachyon—基于内存的分布式存储系统

Debug

  1. 【没有assembly目录】spark2.0.0启动时无法访问spark-assembly-*.jar的解决办法

park升级到spark2以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包。 修改/<PathToHive>/bin/hive文件,将加载原来的lib/spark-assembly-*.jar`替换成jars/*.jar,就不会出现这样的问题。

  1. Spark运行中java.net.UnknownHostException: nameservice1的异常

检查一下Hadoop集群是否正常启动

  1. Spark Executor Driver资源调度小结
  2. initial job has not accepted any resources的spark错误解决办法
  3. spark-submit 报错 Initial job has not accepted any resources
  4. spark Error initializing SparkContext System memory 466092032 must be at least 471859200.

可靠保证

  1. 【容错篇】Spark Streaming的还原药水——Checkpoint
  2. Spark:Master High Availability(HA)高可用配置的2种实现 – BYRHuangQiang
  3. Spark技术内幕:Master基于ZooKeeper的High Availability(HA)源码实现

P.K.

  1. 每次进步一点点——spark中cache和persist的区别
  2. Spark_总结五
  3. Spark与Flink:对比与分析

实战演练

  1. Spark DataFrames入门指南:创建和操作DataFrame
  2. Spark DataFrame小试牛刀
  3. Spark新年福音:一个用于大规模数据科学的API——DataFrame
  4. 基于Spark GraphX实现微博二度关系推荐
  5. 在spark中操作mysql数据 —- spark学习之七
  6. spark操作mysql数据库
  7. spark 连接mysql
  8. spark SQL学习(spark连接 mysql)
    原文作者:司小幽
    原文地址: https://www.jianshu.com/p/00460fbdf1bf
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞