apache-flink – 如何处理在Apache Flink中很少更新的大型查找表

2019年7月21日 218次阅读

处理数据的模式是我有一个记录流,它们通过一些信息A得到丰富.记录按一些ID进行分片.此信息A取决于当前记录,先前计算的结果和大型查找表.查找表不会经常更改,更改也很小.我知道我可以使用mapWithState / flatMapWithState进行有状态计算.但是,我应该如何处理查找表？惯用的方法是将它作为状态处理(如A),但查找表的大小可能对于性能/内存来说很可怕(例如,当快照时)

我目前正在考虑将其作为受读/写锁保护的共享资源.有没有更好的方法来处理这种模式？