《推荐系统:技术、评估及高效算法》一3.4 趋势和未来研究

本节书摘来自华章出版社《推荐系统:技术、评估及高效算法》一书中的第3章,第3.4节,作者 [ 美]弗朗西斯科·里奇(Francesco Ricci)利奥·罗卡奇(Lior Rokach)布拉哈·夏皮拉(Bracha Shapira)保罗 B.坎特(Paul B.Kantor),更多章节内容可以访问云栖社区“华章计算机”公众号查看

3.4 趋势和未来研究

3.4.1 推荐过程中用户产生内容的作用

Web 2.0是一个描述万维网技术趋势的术语,万维网的目标是促进用户之间的信息共享和协作。按照Tim O’Reilly http://radar.oreilly.com/archives/2006/12/web-20-compact.html,Accessed on March 18,2009说法,术语Web2.0的意思是以用户为中心,设计用户产生内容的软件,因为其内容是由成千上万用户所贡献的,如Flickr,Wikipedia,Del.icio.us,YouTube等网站。这也是Web2.0被称为“参与性Web”的原因。同时,O’Reilly http://www.npr.org/templates/story/story.php?storyId=98499899,Accessed on March 18,2009也定义Web2.0“为了让更多用户能使用的、更好的系统设计方法”。

在科研领域受到许多关注的一种用户产生内容(User Generated Content,UGC)的方法是大众分类法,这是一种由用户产生的分类学,用户大量地选择被称为标签的关键字来协助标注和分类感兴趣的资源。
尽管在推荐系统领域里已经有相当数量的重要研究,但是相比推荐标签问题,(如辅助用户进行标注)[98,95],人们对将标签整合到标准推荐系统算法,特别是基于内容的算法,所面临的特定问题的探索还少很多。
大众分类法在推荐系统领域提供了新的机会和挑战(参考第19章)。我们应该研究这些标签是否能够代表用户兴趣的有价值信息,是否应该被包含在用户信息中。当前已经发现了设计标签系统的几个难点,如多义词、标签同义词,或者是不同领域的标注者同时标注,会使得标签在描述资源对象的时候处于多个抽象层次,或者造成混乱的标签扩散现象[40]。

3.4.1.1 推荐系统的社会化标签

现有研究中已经在基于内容的推荐系统中引入了几种用户打标签的方法。
在文献[28]中,用户个人信息以标签向量的形式展现,每一个元素表示一种标签被用户赋值给文档的次数值。文献[57]中提出了一个更加复杂的方法,考虑了标签的共现。用户个人信息和信息源的匹配是通过使用简单字符串匹配来实现的。正如作者本身所预见到的,采用WORDNET可以改进匹配效果。

在由Szomszor等[96]给出的文章中,作者描述了一种电影推荐系统,纯粹建立在采用协同标注方法赋给电影的关键字上。对于活跃用户,推荐系统的算法是基于电影相似性来计算的,即计算其他电影和用户评价过的电影之间的标签相似性。正如作者所述,推荐算法能通过综合基于标签属性和更多传统基于内容的推荐策略中的技术来提高推荐效果。

文献[33]提出几种不同的策略来建立基于标签的用户个人信息,并利用它们来构造音乐推荐系统。基于标签的用户个人信息是由标签集合来定义的,这些标签被用户用来标注唱片,同时标签也带有相应的分数用以代表用户在这些标签上的兴趣程度,如根据标签的使用频率和听音乐的频率来标注。
以上描述的方法中只有一组单一的热门标签来描述用户的兴趣,文献[102]提到这可能并不是最合适的描述用户的方法,因为它不能反映用户的多种兴趣。因此,作者提出一种网络分析技术(基于聚类方法),基于用户个性化标签来识别他们不同的兴趣。

关于标签解析的方法,Cantador等在文献[19]提出了一个模型来选择有意义的标签,利用WORDNET、维基以及谷歌等渠道获取一组初始未加工的标签,并从中选择合适的标签。如果标签在WORDNET中被直接匹配,那么直接使用;否则,可能的拼写错误以及复合名词通过使用谷歌的“你是×××意思吗”机制来发现匹配对象(例如,标签sanfrancisco或者san farncisco被纠正成san francisco)。最后,标签被关联到他们相应的维基条目上。

在Gemmis等的文章[36]中提出了一种更复杂的算法,算法实现了一种混合策略,从(静态)内容以及被用户评分的相关物品中学习用户个人信息。作者将用户个人信息,以及他自己的个性化标签包含进来,同时还采纳被其他用户评价过的物品的标签(社会标签)。当对大众化分类有贡献的用户具有不同的专业领域知识时,这方面显得特别重要。在用户个性化属性中引入社会标签的内容使得纯基于内容推荐的理论被扩展到混合协同内容理论[17]。此外,从标签中识别用户兴趣的解决方法也被提出来。由于用户自由选择标签以及他们实际行为不是很清楚的事实,作者建议通过基于WORDNET的词义消歧算法来解释标签。一个类似的混合方法也在文献[38]中被提出来,其方法结合了基于标签标注行为所表达的兴趣内容以及基于内容的用户个人信息。

文献[20]也提出了一些关于如何通过WORDNET方法来分析标签以便于获得用户意图的想法,但是实验结果并不支持文中提出的思路。文献[104]提出通过WORDNET的方法来语义解释标签的另一种方法。作者设计了一个让邻居进行选择的算法,证明了在协同过滤算法中标签的有效性。邻居选择是指在WORDNET中计算不同用户之间的标签语义距离。
我们相信,依靠不同知识源的方法(如WORDNET或维基)来识别标签含义的挑战性研究是有用的。此外,通过考虑个性化,社会化以及专家的标签的不同特性,可以设计出新的策略,在学习基于内容的用户个人信息过程中整合标签。事实上,个性化标签大部分是主观的,而且前后不一致,相反,专家的标签是客观和一致的。社会化标签则趋向某种形式的连贯性[5]。
另一种有意义的研究方向是以分析标签来获得有力的反馈来推断用户个人信息。表达用户观点和情绪的标签能表达用户对物品的满意度,如厌烦、感兴趣、好、坏等。情感计算研究领域的技术的确有必要。

3.4.2 超越特化:惊喜度

正如在3.2.2节中介绍的,基于内容的推荐系统被诟病过于特化,因为只推荐被用户评价过的相似物品。解决这一问题的可能方案是引入一些随机性。例如,信息过滤领域[87]曾提出过采用遗传算法。另外,特化问题不仅是避免推荐和用户以前用过的一样的物品。在一定情况下,如果物品和用户以前用过的物品太相似也不应该被推荐,例如,描述同一个事件的不同文章。因此,如果物品和用户以前用过的物品特别相似,一些基于内容的推荐系统会过滤掉这些物品,如Daily-Learner[13]。Zhang等[103]提出的冗余度量被用来衡量相关的文档是否包含新颖的信息。总之,推荐的多样性是推荐系统中通常的理想特性。

在推荐系统中惊喜度可以被看作接收到未预料和意外的物品推荐的体验,因此是一种多样性推荐的方式。根据Gup的理论[41],当用户依赖探索和运气来寻找他们不知道并且期望的物品时,基于内容的系统由于特化问题,在产生意外发现方面存在软肋。

明确区分新颖性和惊喜度之间的区别是有用处的。根据Herlocker[42]的解释,新颖性是指系统建议给用户一个他已经能独立发现的未知物品。意外发现是指推荐系统帮助用户找到使用其他方法无法发现的一个令人惊讶的有趣物品(或者是很难真正被发现)。为了提供清晰的区分新颖性和惊喜度之间的区别的例子,请设想推荐系统只推荐用户喜欢的导演执导的电影。如果系统推荐一部用户未意识到的电影,其可能是新颖的,但是可能不是惊喜度。另一方面,推荐一部由一个新导演执导的电影可能更会提供一个意外惊喜。惊喜度的推荐按照定义也是新颖的。

惊喜度问题的挑战在于要去设计惊喜,也就是说要找到一种方式,能够在推荐过程中以一种可操作的方式推导出惊喜之处。从该角度而言,问题还没有得到深入的研究,并且理论和实验研究也都相当少。
如Toms解释的那样[97],搜索信息有三种类型:

寻找已定义好对象的信息;

寻找不能完全描述对象的信息,但是第一眼能被识别的;

以一种碰巧、偶然或意外的方式获取信息。

不难看出,意外发现对于前两种获取方式没有用处,但是对于第三种方法特别重要。我们讨论关注于在基于内容推荐中发现意外惊喜策略的实现,对应到实际世界中的恰当比喻是,一个人去购物或者参观博物馆,当他漫无目的行走时,可能发现他从来没有期望发现过的全新东西,这个对他而言肯定有趣。在关于“可操作地推导出意外惊喜”方面已经提出不同的方法中,Toms建议了四种策略,从最简单的到比较复杂的列举如下[97]:

碰运气或者撞大运,通过随机信息节点产生来实现;

Pasteur法则(机会垂青有准备的人),通过用户个人信息来实现;

不寻常情况和例外情况,通过弱相似度量来部分实现;

类比推理,这些实现目前未知。

文献[44],描述了一个实现“不寻常情况现象和异常例外”方法的提议,为了在传统的推荐中提供意外发现的推荐,因此在系统中提供用户新的指向物品的入口。最基本的假设是用户知道物品的概率越低,特定物品导致意外惊喜的概率越高。用户知道那些在语义上与系统确信用户所知物品相近的概率,要高于那些语义较远的物品的概率。换句话说,更加类似于通过提供与用户个人信息不相似的东西来获得意外发现。根据该原则,在文献[44]中提出的最基本想法是依据用户个人信息和物品描述之间的相似度来搜寻意外发现物品。系统依据朴素贝叶斯分类器来实现,它能够把物品分成感兴趣的(C+类)和不感兴趣的(C-类),计算取决于由分类器计算好的先验概率。为了整合Tom的“低相似度”到推荐系统中,物品和用户个人信息的匹配会生成根据C+类别中的先验概率产生的物品排列列表。列表的顶端是和用户个人信息最相似的物品,例如,被定为C+类的最高评分物品。另一方面,被分类为C-类的先验概率较高的物品在列表的底端。系统中不确定的物品是在两个分类分数之间趋于零的那些物品。因此假设这些物品不为用户所知是有意义的,因为系统不能够清晰地划分它们是否相关。那些在C+和C-
之间区别很小的物品很难被分类,所以对于用户来说属于意外的发现。

在评估惊喜度问题的时候,很难获取惊喜的情感反应水平,因此有效的惊喜度衡量方法应该脱离传统的精确度度量方法以及相关的实验方法。文献[55]中列出了以用户为中心的评估推荐系统的新的指导性方向,如推荐系统的惊喜度。这些度量组成了有趣而且重要的研究课题(参考第8章)。
总之,在扩充基于内容的推荐系统的时候,采用具有惊喜度的策略,如提供令用户吃惊的推荐结果,可以有效降低系统的特化问题。

    原文作者:推荐算法
    原文地址: https://yq.aliyun.com/articles/107607
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞