本节书摘来自华章出版社《推荐系统:技术、评估及高效算法》一书中的第3章,第3.5节,作者 [ 美]弗朗西斯科·里奇(Francesco Ricci)利奥·罗卡奇(Lior Rokach)布拉哈·夏皮拉(Bracha Shapira)保罗 B.坎特(Paul B.Kantor),更多章节内容可以访问云栖社区“华章计算机”公众号查看
3.5 总结
本章总结了基于内容的推荐系统领域的相关研究,并且概述了系统所需要的各个重要特性与方法。尽管在不同的领域有许多的推荐系统,但是都用共同的方法来表示被推荐的物品和用户个人信息。本章首先讨论的主要论点涉及物品的表述,从最简单的结构化数据描述,到信息检索研究领域中比较复杂的非结构化数据。我们分析了过去15年推荐系统的主要内容,并强调一种更加复杂“语义分析”是必要的,这个方法的复杂性远超通过关键字来描述用户兴趣。概述了在推荐过程中采用的一些主要的语义策略,并提供了语言学知识主导性作用的证据,在不同的应用领域中基于不同语境的用户兴趣分析需要更加深入且专业的知识。最新的研究中也强调了运用世界范围的知识的重要性,如Wikipedia,尽管它们在学习用户个人信息的文本中还没有被使用。在总结中也提出了多种学习算法。
本章的最后一部分致力于讨论下一代基于内容推荐系统的主要趋势以及研究。特别是,本章提出了有关Web 2.0发展和变革的一些内容,将改变个性化的玩法,因为用户的角色从被动消费信息进化到主动贡献信息。最近的一些研究工作以及将来的研究方向中包含了一些有争论的策略,例如,把整合用户自定义词汇作为一种扩展词典的方式,如大众分类法。
最后,文中提出了内容推荐系统中非常特别的一个方面。由于这种系统本身的性质,他们只能推荐与用户个人信息匹配度很高的物品,因此用户被限制在那些与用户曾经评价过的物品相似的物品集合中。这种被称为特化的缺点阻碍了系统在真实世界场景中推广使用。文中分析了一些为用户提供惊讶和非预期(意外发现)结果的可能方法。
最后,我们想强调高级物品表示方法中语言处理研究的重要性。以下引用一个例子,我们从美国专利局和版权署中获取谷歌公司的专利消息是非常有价值的。例如,这些专利之一,名字叫开放用户信息描述方法,像如下方法描述用户信息:“我真的喜欢远足,特别是能在外野营几天的长途远足。室内活动我一点都提不起兴趣,我真的厌烦类似于园艺的室内活动。”使用智能的语言处理算法来发现用户的情绪(对短途旅行和园艺是喜欢或者不喜欢)和其他语言线索,系统可能会提供户外活动相关的广告给该用户,但是尽量避免提供其他业余爱好方向的广告[3]。
我们希望本章所提出的论点能够对科研领域的下一代基于内容推荐技术起到促进作用。