我们在之前的文章中 已经了解了 spark支持的模式,其中一种就是 使用k8s进行管理。
hadoop组件—spark—-全面了解spark以及与hadoop的区别
spark on k8s的优势–为什么要把Spark部署在k8s上
大数据和云计算一直分属两个不同的领域。大数据主要关注怎么将数据集中起来,挖掘数据的价值;云计算主要关注怎么更高效地使用资源,提升资源的利用效率。当大数据发展到一定阶段的时候,它就会和云计算不期而遇。
两者的结合有以下优势:
1、技术栈的统一,降低运维成本
一般来说 每个公司 大数据的平台 和 云计算平台都是 不可缺少的。
也就意味着我们有两套体系的集群
一套是Hadoop+spark 或者 是商用的EMR。
一套是k8s,用于部署微服务和常规分析流程等应用。
两套集群意味着 比较复杂的管理成本,两套集群都分别要做好 安全和用户识别,以及 日志监控报警,后续的成本跟踪和优化等措施。
假如我们能把spark运行在k8s中,这样我们的 技术栈体系就会统一成 一套集群体系, 我们所有的安全,用户识别以及日志监控报警 以及 成本跟踪 都可以 使用k8s体系的。