python – 索引milion行方矩阵,用于快速访问

2019年7月27日 181次阅读

我有一些非常大的矩阵(比如百万行的顺序),我无法保留在内存中,我需要在下降时间(不到一分钟……)中访问该矩阵的子样本.

我开始关注hdf5并与numpy和pandas结合使用：

但我发现它有点复杂,我不确定它是否是最好的解决方案.

还有其他解决方案吗？

谢谢

编辑

这里有一些关于我正在处理的数据类型的更多规范.

>矩阵通常是稀疏的(<10％或<25％的非零的细胞)
>矩阵是对称的

而我需要做的是：

>只能阅读
>提取矩形子矩阵(大多数沿对角线,但也在外面)

最佳答案你试过PyTables吗？它对于非常大的矩阵非常有用.看看
this SO post.