apache-spark – 如何在流用例中更新大型广播变量?

我有一个用例,我有一个流作业运行从kafka队列获取输入数据.我有一百万行的参考数据,每小时更新一次.我在驱动程序中加载参考数据,然后将其广播给工作人员.我想更新这个广播变量(在驱动程序中)并将其重新发送给工作人员.

如果没有引入hbase / redis / cassandra等,在spark中执行此操作的最佳方法是什么?

这有多可靠?

如果需要更多信息,请告诉我.先感谢您. =)

最佳答案 后来在这里给出了类似问题的答案:
How can I update a broadcast variable in spark streaming?

简而言之,您需要:“unpersist”广播变量,更新并重新广播它.

PS.正式地说这个问题不重复,因为它是早先发布的.

点赞