余弦相似度度量.docxVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2.2.1余弦相似度度量

为了找到相似物品,需要定义一种相似度度量标准。在基于物品的推荐方法中,余弦相似度由于效果精确,已经被证实是一种标准的度量体系。这种度量标准用两个n维向量之间的夹角来测算相似度。这种方法也被广泛用于信息检索和文本挖掘,用来比较两份文本文档,其中文档可以表示为词语的向量。

将两个物品a和b用对应的评分向量和来表示,其相似度可以定义如下:

符号·表示向量间的点积,表示向量的欧式长度,即向量自身点积的平方根。

物品5和物品1的余弦相似度因此可以计算为:

相似度值介于0和1之间,越接近1则表示越相似。基本的余弦方法不会考虑用户评分平均值之间的差异。改进版的余弦方法能够解决这个问题,做法是在评分值中减去平均值。相应地,改进余弦方法的取值在1到+1之间,就像Pearson方法一样。

设U为所有同时给物品a和b评分的用户集,改进的余弦相似度计算如下:

我们因此可以对原始的评分数据集进行变换,用评分值相对于平均评分值的偏差取代原始值,如表2-2所示。

表2-2均值调整评分数据库

?

物品1

物品2

物品3

物品4

物品5

Alice

1.00

-1.00

0.00

0.00

用户1

0.60

-1.40

-0.40

0.60

0.60

(续)

?

物品1

物品2

物品3

物品4

物品5

用户2

0.20

-0.80

0.20

-0.80

1.20

用户3

-0.20

-0.20

-2.20

2.80

0.80

用户4

-1.80

2.20

2.20

-0.80

-1.80

物品5和物品1的改进余弦相似度值为:

确定物品间的相似度之后,我们可以通过计算Alice对所有与物品5相似物品的加权评分总和来预测Alice对物品5的评分。形式上,我们预测用户u对物品p的评分为:

就像在基于用户的方法中,近邻集合的规模也会受限于一个固定值。也就是说,不是所有的近邻都会拿来做预测。

文档评论(0)

138****1610 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档