推荐算法(一)——音乐歌单智能推荐

       题记:推荐引擎依据的分类依据数据源,分为基于人口统计学的(用户年龄或性别同样判定为类似用户)、基于内容的(物品具有同样关键词和Tag,没有考虑人为因素)。以及基于协同过滤的推荐(发现物品。内容或用户的相关性推荐。分为三个子类,下文阐述);
       依据其建立方式。分为基于物品和用户本身的(用户-物品二维矩阵描写叙述用户喜好,聚类算法)、基于关联规则的(The Apriori algorithm算法是一种最有影响的挖掘布尔关联规则频繁项集的算法)、以及基于模型的推荐(机器学习。所谓机器学习。即让计算机像人脑一样持续学习,是人工智能领域内的一个子领域)。

       推荐算法潜在因子(Latent Factor)算法。
       应用领域:“网易云音乐歌单个性化推荐”、“豆瓣电台音乐推荐”等。
       关键因素: 评分矩阵的UV分解的理解。

       算法思想
       每一个用户(user)都有自己的偏好,比方A喜欢带有小清新的、吉他伴奏的、王菲等元素(latent factor)。假设一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也就是用元素去连接用户和音乐。

每一个人对不同的元素偏好不同,而每首歌包括的元素也不一样。

我们希望能找到这样两个矩阵:

     实际上你能够理解为latent factor是对用户属性和音乐属性的双重降维(相当于把高维的用户\音乐属性降维到一个k维的隐空间进行表达)。将用户属性\音乐属性都使用一个k维的向量表示,终于预測出某一用户对某一音乐的评分即为这两个向量的内积。
一。,表示不同的用户对于不用元素的偏好程度,1代表很喜欢,0代表不喜欢。比方以下这样:
《推荐算法(一)——音乐歌单智能推荐》

二。潜在因子-音乐矩阵P,表示每种音乐含有各种元素的成分。比方下表中,音乐A是一个偏小清新的音乐,含有小清新这个Latent Factor的成分是0.9,重口味的成分是0.1,优雅的成分是0.2……
《推荐算法(一)——音乐歌单智能推荐》
       利用这两个矩阵,我们能得出张三对音乐A的喜欢程度是:张三对小清新的偏好音乐A含有小清新的成分+对重口味的偏好音乐A含有重口味的成分+对优雅的偏好*音乐A含有优雅的成分+……
《推荐算法(一)——音乐歌单智能推荐》
《推荐算法(一)——音乐歌单智能推荐》
       即:0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69
       每一个用户对每首歌都这样计算能够得到不同用户对不同歌曲的评分矩阵。(注,这里的破浪线表示的是预计的评分,接下来我们还会用到不带波浪线的R表示实际的评分):
《推荐算法(一)——音乐歌单智能推荐》
     因此我们队张三推荐四首歌中得分最高的B,对李四推荐得分最高的C,王五推荐B。

假设用矩阵表示即为:
                                                                   《推荐算法(一)——音乐歌单智能推荐》
       以下问题来了,这个潜在因子(latent factor)是怎么得到的呢?
    由于面对海量的让用户自己给音乐分类并告诉我们自己的偏好系数显然是不现实的,其实我们能获得的数据仅仅实用户行为数据。我们沿用的量化标准:单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-2 , 拉黑=-5,在分析时能获得的实际评分矩阵R。也就是输入矩阵大概是这个样子:
《推荐算法(一)——音乐歌单智能推荐》

    其实这是个很很稀疏的矩阵,由于大部分用户仅仅听过所有音乐中很少一部分。

怎样利用这个矩阵去找潜在因子呢?这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵,用Q和P两个矩阵的乘积去预计实际的评分矩阵,并且我们希望预计的评分矩阵
《推荐算法(一)——音乐歌单智能推荐》
       对于一个大型的评分矩阵X(m*n,m为用户数。n为音乐数量。矩阵中每一项便是这一用户对这一音乐的评分,显然这会是一个很稀疏的矩阵),我们希望由这一评分矩阵得到两个分解后的矩阵U(m*k。用户属性在隐空间内的表示)与V(n*k,音乐属性在隐空间内的表示)。使得U乘以transpose(V)能够尽可能地逼近矩阵X,即由抽取的用户属性\音乐属性。我们能够“尽可能地还原出”原本输入的大型评分矩阵X——这一分解便被称为”UV分解”。
       和实际的评分矩阵不要相差太多,也就是求解以下的目标函数:
                                                 《推荐算法(一)——音乐歌单智能推荐》
       这里涉及到最优化理论。在实际应用中,往往还要在后面加上2范数的罚项,然后利用梯度下降法就能够求得这P,Q两个矩阵的预计值。这里我们就不展开说了。比如我们上面给出的那个样例能够分解成为这样两个矩阵:
《推荐算法(一)——音乐歌单智能推荐》
       这两个矩阵相乘就能够得到预计的得分矩阵:
《推荐算法(一)——音乐歌单智能推荐》
       将用户已经听过的音乐剔除后,选择分数最高音乐的推荐给用户就可以(红体字)。

參考文献
http://www.zhihu.com/question/26743347/answer/34714804

    原文作者:yangykaifa
    原文地址: https://www.cnblogs.com/yangykaifa/p/7224950.html
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞