协同过滤推荐中利用SVD提高推荐的效果

2024年2月12日 173次阅读来源: HelloData

1.什么是SVD :
SVD指的是奇异值分解 SVD SVD的物理意义

2.利用Python实现SVD

from numpy import linalg as la

# Numpy有一个称为linalg的线性代数工具,其中svd计算方法如下
U,Sigma,VT = la.svd(dataMat)

3.利用SVD提高效率
生产实际中的数据比较稀疏，在生产中不管是基于用户的相似度计算还是基于物品的相似度计算
都需要较多的时间和很多的计算力，通过SVD可以将映射到低纬空间中去

4.基于SVD的评估方法Python实现（参考自机器学习实战）

def svdEst(dataMat, user, simMeas, item):
    n = shape(dataMat)[1]
    simTotal = 0.0; ratSimTotal = 0.0
    U,Sigma,VT = la.svd(dataMat)# numpy 的svd计算
    Sig4 = mat(eye(4)*Sigma[:4]) #numpy.eye() 生成对角矩阵
    # 机器学习实战的P264中代码对应的公式推导 https://blog.csdn.net/appleyuchi/article/details/82913217
    xformedItems = dataMat.T * U[:,:4] * Sig4.I

    for j in range(n):
        userRating = dataMat[user,j]
        if userRating == 0 or j==item: continue
        similarity = simMeas(xformedItems[item,:].T,\
                             xformedItems[j,:].T)
        print 'the %d and %d similarity is: %f' % (item, j, similarity)
        simTotal += similarity
        ratSimTotal += similarity * userRating
    if simTotal == 0: return 0
    else: return ratSimTotal/simTotal

其中计算按照奇异值能到达总能量的90% 计算；dataMat.T U[:,:4] Sig4.I 的推导请参见：推导

—————————————————-更新线————————————————————

我们如何知道保留多少奇异值呢，典型做法是保留90%
也可以计算，按照前k个奇异值的平方和占总奇异值的平方和的百分比percentage来确定k的值

def cal_sigma_k(sigma, percentage):
    sigma2 = sigma ** 2  # 对sigma求平方
    sumsgm2 = sum(sigma2)  # 求所有奇异值sigma的平方和
    sumsgm3 = 0  # sumsgm3是前k个奇异值的平方和
    k = 0
    for i in sigma:
        sumsgm3 += i ** 2
        k += 1
        if sumsgm3 >= sumsgm2 * percentage:
            return k

    原文作者：HelloData
    原文地址: https://segmentfault.com/a/1190000017578890
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。