我们目前正在使用DataflowRunner在Apache Beam上开发流式传输管道.我们正在阅读Pub / Sub中的消息并对它们进行一些处理,之后我们将它们放在滑动窗口中(目前窗口大小为3秒,间隔也为3秒).一旦窗…
标签:google-cloud-dataflow
google-cloud-dataflow – 数据流中的Cloud Bigtable多前缀扫描
更新:似乎最近发布的org.apache.beam.sdk.io.hbase-2.6.0包含HBaseIO.readAll()api.我在谷歌数据流测试,它似乎工作.在Google Cloud Dataflow设置中直接…
google-cloud-dataflow – 数据流地图侧输入问题
我在使用DataflowRunner创建Map PCollectionView时遇到问题. 下面的管道将未输入的countingInput与来自侧输入的值(包含10个生成的值)聚合在一起.在gcp上运行管道时,它会被卡在…
google-cloud-dataflow – 数据流是否支持自定义触发器或更新触发器延迟?
TL:DR;是否可以创建自定义触发器,仅在设置了某个标志时触发?当我们知道正在发生大数据事件时,是否可以使用具有巨大延迟的触发器部署作业,然后在事件结束后将触发器部署到具有正常或无延迟的触发器的更新? 继续于:Remov…
google-cloud-dataflow – 从BigQuery读取小表时的Dataflow OutOfMemoryError
我们有来自BigQuery的 pipeline读数据,并处理不同日历年的历史数据.如果输入数据很小(~500MB),它会因OutOfMemoryError错误而失败 在启动时,它从BigQuery读取大约10.000个元…
google-cloud-dataflow – Cloud Dataflow流媒体工作人员是否获得持续使用折扣?
在旧的定价页面上,他们提到云数据流工作人员使用的所有Google Compute实例都是根据持续使用价格规则进行结算,但新的定价页面不再提及它. 我认为,因为内部它使用相同的计算实例,折扣应该适用,但由于我无法在任何地方…