python – 索引milion行方矩阵,用于快速访问

我有一些非常大的矩阵(比如百万行的顺序),我无法保留在内存中,我需要在下降时间(不到一分钟……)中访问该矩阵的子样本.

我开始关注hdf5并与numpy和pandas结合使用:

> http://web.datapark.io/yves/blaze.html
> http://blaze.pydata.org

但我发现它有点复杂,我不确定它是否是最好的解决方案.

还有其他解决方案吗?

谢谢

编辑

这里有一些关于我正在处理的数据类型的更多规范.

>矩阵通常是稀疏的(<10%或<25%的非零的细胞)
>矩阵是对称的

而我需要做的是:

>只能阅读
>提取矩形子矩阵(大多数沿对角线,但也在外面)

最佳答案 你试过PyTables吗?它对于非常大的矩阵非常有用.看看
this SO post.

点赞