google-cloud-platform – 如何减少Google数据流作业中的初始化和终止时间?

我目前正在研究POC,主要关注用于ETL处理的Dataflow.我使用Dataflow 2.1
Java Beam API创建了管道,初始化大约需要3-4分钟,每次运行大约需要1-2分钟.但是,实际转换(ParDo)不到一分钟.此外,我尝试按照不同的方法运行工作,

>在本地计算机上运行作业
>在GCP上远程运行作业
>通过Dataflow模板运行作业

但看起来,上述所有方法在初始化和终止时消耗的时间大致相同.所以这是POC的瓶颈,因为我们打算每天运营数百个工作岗位.

我正在寻找一种方法来分享所有工作的初始化/终止时间,以便它可以是一次性活动或任何其他方法来减少时间.

提前致谢!

最佳答案 据我所知,没有办法减少启动或拆卸时间.你不应该认为这是一个瓶颈,因为每个作业都独立于最后一个,所以你可以并行运行它们等等.你也可以考虑将它转换为流式管道,如果这是一个消除的选择完全那些时候.

点赞