协同过滤科普(5)

协同过滤的不足

协同过滤虽然可以帮助用户找出合适的推荐列表,在实践中得到广泛的应用,但是也存在着以下一些问题:

1. 冷启动问题

冷启动问题具体可以分为两类。第一类指的是,当系统建立之初,还未收集足够的用户信息,协同过滤算法不能为指定用户找到合适的邻居,从而无法向用户提供推荐预测。第二类指的是,对于新注册的用户或者新加入的商品,由于系统里没有他们的历史数据信息,所以协同过滤算法也无法为用户预测推荐。

2. 稀疏性问题

稀疏性问题指的是在实际情况下,用户很少会对每个内容项进行评分,所以真实的用户-内容项的相似矩阵是稀疏的(即矩阵中的很多元素都为0,表示用户对该内容未进行评分),从而降低了计算效率,而且少部分人的错误偏好会降低推荐的准确性。

3. 最初评价问题

最初评价问题指的是,对于一些从未被评过分的内容,比如新加进的内容或者是比较小众的内容,它们是不可能会被推荐给用户的,而用户可能会对一些冷门内容也感兴趣。

4. 扩展性不足问题

随着推荐系统的扩展,用户和内容数量的增加,计算用户或者内容项间的相似度时,计算复杂度会大大增加,从而导致系统的性能降低。

5. 流行性偏向问题

系统会更偏向于为用户推荐比较流行的内容,因为评分覆盖面广。但对于有着独特口味的用户来说,推荐系统不能提供很好的推荐。

为了克服以上的缺点,现今的推荐系统一般会采取混合的推荐机制来进行互补,而不是单单只采用某一种推荐策略。现在运用最广的推荐机制混合方法有以下几种:

1. 加权混合

先用不同的推荐机制对用户进行推荐预测,然后再将它们的结果按照一定的权重加权求和得出最终的推荐预测,具体的权值设置需要根据实际情况决定。

2. 转换混合

在不同的状态和条件下,转换选择最为合适的推荐机制对其进行预测。因为基于不同的情况,推荐机制的选择上可能会有很大的不同,为了充分利用各种推荐机制的优点,我们可以选择转换混合的方式对用户进行推荐预测。

3. 分区混合

同时采用多种不同的推荐机制,并将产生出的不同结果分成不同的区域推荐给用户。分区混合的方法可以为用户提供更为全面的推荐结果。

4. 分层混合

和分区混合一样,分层混合也是采用多种不同的推荐机制,但不同的是它是将一个推荐机制的结果作为下一个的输入,这样层层作用下去,最终得到一个推荐预测。分层混合的优点在于可以综合不同推荐机制的优缺点,从提高推荐准确度。

总结

在这个数据爆炸的时代,对于电子商务,社交网络或是个性化应用来说,如何能让用户更快速地定位自己想要的信息,如何让用户发掘出自己潜在的兴趣爱好,这是最为关键的。庞大的市场需求推动了推荐系统的发展,现如今,推荐系统已慢慢走向成熟。很多用户惊叹于推荐系统的能力,因为它不仅能找到与你喜好相似的内容,而且还能发掘出你潜在的喜好,可以这么说,推荐系统可能比你还更了解你自己的需求。推荐系统的发展又反作用推动了电子商务等应用的发展,现今的淘宝,京东和豆瓣等网站用户数量已突破千万,更多的用户享受到推荐引擎的美妙之处。

而这篇文章揭示了推荐引擎的背后原理,详细地介绍了推荐引擎最核心的协同过滤算法。原来推荐引擎并没有你想象中的那么复杂,它只是先记录下所有用户的行为信息,然后基于协同过滤的算法,利用这海量的信息,找出与你有着相似喜好的用户,最后把他们的喜好商品推荐给你。也就是说,协同过滤算法是借助他人的经验帮你找到你自己潜在的兴趣爱好,而实现这些的前提是需要具有大量的用户行为数据,而大数据时代正好可以满足这一前提条件。

当然协同过滤算法还没有走向真正的成熟,还存在大大小小的问题。但只要推荐系统能够根据不同的实际情况,选择不同种类的协同过滤方法或者将它们结合起来,就能得到一个令人较为满意的推荐结果。

参考文献

https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html
https://zh.wikipedia.org/zh-hans/%E6%8E%A8%E8%96%A6%E7%B3%BB%E7%B5%B1
https://zh.m.wikipedia.org/zh-cn/%E5%8D%94%E5%90%8C%E9%81%8E%E6%BF%BE
http://blog.csdn.net/zhangyuming010/article/details/38636931

    原文作者:腾古
    原文地址: https://www.jianshu.com/p/8580d248efa4
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞