我有一些非常大的矩阵(比如百万行的顺序),我无法保留在内存中,我需要在下降时间(不到一分钟……)中访问该矩阵的子样本.
我开始关注hdf5并与numpy和pandas结合使用:
> http://web.datapark.io/yves/blaze.html
> http://blaze.pydata.org
但我发现它有点复杂,我不确定它是否是最好的解决方案.
还有其他解决方案吗?
谢谢
编辑
这里有一些关于我正在处理的数据类型的更多规范.
>矩阵通常是稀疏的(<10%或<25%的非零的细胞)
>矩阵是对称的
而我需要做的是:
>只能阅读
>提取矩形子矩阵(大多数沿对角线,但也在外面)
最佳答案 你试过PyTables吗?它对于非常大的矩阵非常有用.看看
this SO post.