apache-spark – 我可以使用哪些工具/框架进行火花作业监控和警报?

我们几乎没有火花批量作业和流媒体作业. Spark批量作业正在Google云VM上运行,Spark流式作业正在Google Dataproc群集上运行.管理这些工作变得越来越困难.所以我们想要实施一些机制来监控工作的健康状况.

我们的基本要求是知道:

>什么时间开始工作以及处理数据需要多长时间.
>受影响的记录数量.
>如果有任何错误,请发送警报.
>每天可视化上述指标,并在需要时采取措施.

我不熟悉spark域.我在Google Dataproc中探索了stackdriver日志记录,但没有在数据中心集群上找到流媒体作业的日志.
我知道可以使用ELK堆栈但我想知道这种要求的spark生态系统中的最佳实践是什么.
谢谢.

最佳答案 Google Cloud Dataproc会将日志写入
Google Stackdriver并将其推送到
Google Stackdriver,您可以将其用于监控和警报.

看看有关如何使用Stackdriver的Dataproc的文档:
https://cloud.google.com/dataproc/docs/guides/stackdriver-monitoring

点赞