java – Cassandra处理历史数据的最佳方法?

我正在使用Cassandra来存储历史数据.它是各种对象的集合,可以及时改变它的价值.

列族:对象类型

行:对象ID

列名:时间戳

列值:给定时间的值

在某些时候,数据变为“旧”而不是删除它我想将其存储在其他地方(如另一个列族)或“标记”以某种方式不与其他数据一起检索.

哪种方法最快?目前我正在使用Hector来做到这一点:
1.读取数据(使用SliceQuery)
2.在antoher列族中写入数据(使用ColumnFamilyUpdater)
3.删除旧数据(也使用ColumnFamilyUpdater)

不确定这是否是最好的做法,但我对卡桑德拉来说还是新手……
谢谢.

最佳答案 您的数据不仅会在HDD上发生,而且还会消耗JVM堆,因为行启动过滤器始终在启动时读取 – 重要的是要记住它.

您的解决方案很好 – 您需要读取此数据并将其移动到其他位置.现在有两种选择:

>生成反向索引,以便您可以快速访问旧数据.
>查看所有数据以查找旧记录.如果您在多个Cassandra节点上划分数据集,请考虑Hadoop Map Reduce

第一种解决方案将提供对旧数据的快速访问,但每次插入操作都必须更新索引,这仍然在Cassandra案例中超级快.

第二种解决方案在日常使用中不需要额外插入,但在移动旧数据时需要全表扫描.如果你能在夜间开展这样的工作,这是完美的.

点赞