我正在使用Cassandra来存储历史数据.它是各种对象的集合,可以及时改变它的价值.
列族:对象类型
行:对象ID
列名:时间戳
列值:给定时间的值
在某些时候,数据变为“旧”而不是删除它我想将其存储在其他地方(如另一个列族)或“标记”以某种方式不与其他数据一起检索.
哪种方法最快?目前我正在使用Hector来做到这一点:
1.读取数据(使用SliceQuery)
2.在antoher列族中写入数据(使用ColumnFamilyUpdater)
3.删除旧数据(也使用ColumnFamilyUpdater)
不确定这是否是最好的做法,但我对卡桑德拉来说还是新手……
谢谢.
最佳答案 您的数据不仅会在HDD上发生,而且还会消耗JVM堆,因为行启动过滤器始终在启动时读取 – 重要的是要记住它.
您的解决方案很好 – 您需要读取此数据并将其移动到其他位置.现在有两种选择:
>生成反向索引,以便您可以快速访问旧数据.
>查看所有数据以查找旧记录.如果您在多个Cassandra节点上划分数据集,请考虑Hadoop Map Reduce
第一种解决方案将提供对旧数据的快速访问,但每次插入操作都必须更新索引,这仍然在Cassandra案例中超级快.
第二种解决方案在日常使用中不需要额外插入,但在移动旧数据时需要全表扫描.如果你能在夜间开展这样的工作,这是完美的.