研究涉及单方面的最优化,但是对于淘宝的推荐来说,我们需要把握整个推荐的大方向大数据量的平衡,因此,向用户推荐商品有两方面需要考虑:推荐方向和推荐准确率。
对于推荐的方向,不仅需要针对历史来推荐还需要为未来推荐,以下有三种推荐算法考虑。
1. 基于内容的过滤:历史推荐
对商品进行tag标注,并对其相关特征进行提取,结合成为该商品的内容特征;同时对用户购买的商品也做特征提出,通过两方面的内容匹配来推荐给用户商品。
2. 基于协同的过滤算法:未来推荐
基于内容的算法可以推荐给用户兴趣相似的商品,但是无法为用户提供新的感兴趣商品,这就需要我们采用协同的思想。协同算法通过相似的用户群和相似的商品进行推荐,可以采用聚类分类等算法来形成相似群体。
3. 基于内容的协同算法
该算法结合了内容和协同两方面,增加了内容项的相似度比较来进行推荐。
对于推荐的准确率,可以通过上述的过滤的实现加上检索算法进行。
淘宝里面有各个完备的数据。每个人都有属于它的信息,这些信息包括年龄、性别、购买过的产品、收藏的商家等信息;同样,每一样物品都有它的信息,包括关键词、类别、购买人、所属商家等。可以对这些特征进行整理,通过聚类算法、预测算法和分类算法等来产生基础的信息库。
1. 预测算法:以商品属性等因素作为指标,进行回归模型建立。
2. 分类算法:通过商品性别判断、用户年龄段判断等,或进行分类模型建立来预测推荐。
3. 聚类算法:对人群或者商品进行分组,用于对特征的降维处理,筛选候选,加快运算速度。