在numpy的
python中,假设我有两个矩阵:
> S,稀疏的x * x矩阵
> M,密集的x * y矩阵
现在我想做np.dot(M,M.T),它将返回一个密集的x * x矩阵S_.
但是,我只关心S中非零的单元格,这意味着如果我这样做,它对我的应用程序没有任何影响
S_ = S * S_
显然,这将浪费操作,因为我想省去S中给出的无关细胞.请记住,在矩阵乘法中
S_ [i,j] = np.sum(M [i,:] * M [:,j])
所以我想只为i,j做这个操作,这样S [i,j] = True.
是否通过在C中运行的numpy实现以某种方式支持它,以便我不需要使用python循环实现它?
编辑1 [已解决]:我仍然有这个问题,实际上M现在也很稀疏.
现在,给定S的行和列,我实现它如下:
data = np.array([ M[rows[i],:].dot(M[cols[i],:]).data[0] for i in xrange(len(rows)) ])
S_ = csr( (data, (rows,cols)) )
……但它仍然很慢.有什么新想法吗?
编辑2:jdehesa给出了一个很好的解决方案,但我想节省更多的内存.
解决方案是执行以下操作:
data = M[rows,:].multiply(M[cols,:]).sum(axis=1)
然后从行,列和数据构建一个新的稀疏矩阵.
然而,当运行上面的行时,scipy构建一个(连续的)numpy数组,其元素与第一个子矩阵的nnz加上第二个子矩阵的nnz一样多,这可能导致我的情况下出现MemoryError.
为了节省更多内存,我想迭代地将每一行与其各自的“伙伴”列相乘,然后求和并丢弃结果向量.使用简单的python实现这一点,基本上我回到了非常慢的版本.
有解决这个问题的快捷方法吗?
最佳答案 以下是使用NumPy / SciPy进行密集和稀疏M矩阵的方法:
import numpy as np
import scipy.sparse as sp
# Coordinates where S is True
S = np.array([[0, 1],
[3, 6],
[3, 4],
[9, 1],
[4, 7]])
# Dense M matrix
# Random big matrix
M = np.random.random(size=(1000, 2000))
# Take relevant rows and compute values
values = np.sum(M[S[:, 0]] * M[S[:, 1]], axis=1)
# Make result matrix from values
result = np.zeros((len(M), len(M)), dtype=values.dtype)
result[S[:, 0], S[:, 1]] = values
# Sparse M matrix
# Construct sparse M as COO matrix or any other way
M = sp.coo_matrix(([10, 20, 30, 40, 50], # Data
([0, 1, 3, 4, 6], # Rows
[4, 4, 5, 5, 8])), # Columns
shape=(1000, 2000))
# Convert to CSR for fast row slicing
M_csr = M.tocsr()
# Take relevant rows and compute values
values = M_csr[S[:, 0]].multiply(M_csr[S[:, 1]]).sum(axis=1)
values = np.squeeze(np.asarray(values))
# Construct COO sparse matrix from values
result = sp.coo_matrix((values, (S[:, 0], S[:, 1])), shape=(M.shape[0], M.shape[0]))