我们正在使用Google Dataflow进行批量数据处理,并寻找工作流程编排工具的一些选项,类似于Azkaban为Hadoop所做的工作.
关键的事情我们正在寻找的是,
>配置工作流程
>安排工作流程
>监控和警告失败的工作流程
>能够重新运行失败的工作
我们已经评估了Pentaho,但这些功能在他们的企业版中可用,这是昂贵的.
我们目前正在评估Azkaban,因为它支持javaprocess作业类型.但Azkaban主要是为Hadoop工作创建的,因此它与Hadoop基础架构进行了更深入的集成,然后是简单的javaprocesses.
感谢开源或极低成本解决方案的一些建议.
最佳答案 听起来Apache Airflow(
https://github.com/apache/incubator-airflow)应该满足您的需求,它现在有一个Dataflow操作符(
https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/operators/dataflow_operator.py).