基于本体的兴趣模型和语义相似度计算方法的研究.docx

基于本体的兴趣模型和语义相似度计算方法的研究.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于本体的兴趣模型和语义相似度计算方法的研究

?

?

阮怀伟胡松华陈艳平邹乐

摘要:本文在基于知识本体库的基础上,提出了个性化用户模型的兴趣树构建方法,并在此基础上提出了基于WordNeT的语义相似度计算方法,为个性化服务提供理论指导,与其他方法相比,本文提出的方法可以为个性化用户提供更为精准的推送服务。

关键词:本体;兴趣模型;个性化;语义相似度

:TP391:A:1009-3044(2018)20-0183-03

1领域本体知识库和语义相关度的理论与方法

随着计算机在信息化方面的应用,人们对数字信息的处理需求越来越高。信息技术开始面临知识表示、信息组织和软件复用等各种新的挑战。特别是互联网的迅速发展,使得组织、管理和维护海量信息,为用户提供有效的服务成了一个重要而紧迫的研究课題[1-4]。为了适应信息化处理需求,出现了一个新的概念,本体(Ontology)作为一种能够在知识层面和语义层面描述信息系统的建模工具,引起了国内外许多研究者的关注,并被广泛应用于计算机等知识领域[5-7]。

动态数字语义标引技术主要通过对本体资源的语义标注,充分挖掘用户感兴趣和需要的资源,为用户推送个性化的学习资源和学习计划等。主要在于建立资源领域本体,对资源进行语义标注、审核、加工等,利用本体建立实体与知识点的关联关系,知识点与资源的关联关系,最终为个性化推送服务。

在领域本体知识库方面,当前本体建模缺乏逻辑层知识表达的问题,一般方法是通过阐释符号与符号过程的概念,联系符号框架理论,将知识表达和关联过程分为3个维度,即语法、语义、语用的应用。另外一个是语义相关度计算,是信息检索、文档分类和聚类、推荐系统、机器学习等诸多领域,仍然存在一些关键技术亟待解决。

2基于本体的个性化用户模型—“兴趣树”构建方法

在基于本体领域资源的基础上,提出了一种基于本体的个性化用户模型——兴趣树构建的平衡方法。核心内容是:基于已经构建了信息系统的领域本体,通过领域本体中的概念关系描述用户模型,并选择用户模型中最广泛的“直接关系”和“对等关系”,从而形成用户模型,一棵树状的“兴趣树”。“兴趣树”的具体思想是在构建良好的领域本体的基础上为用户提供固定的兴趣点,然后分析用户的URL属性,并利用属性中包含的概念构造用户兴趣树[8-10]。构建的用户模型以用户个人信息和用户兴趣树的形式呈现。用户模型的具体构建过程如图1所示。

3基于WordNeT的语义相似度计算方法

语义相似度的计算需要先确定语义信息的含义,并使用各种语义信息,包括距离、信息系数IC(InformationCoefficient)、深度、语义关系和概念特征。距离是最简单、最直观的语义信息。在现有的研究中,都设置了所有的混合语义相似度。相似度的计算方法利用距离的语义信息进行计算。本文提出的计算方法也是一种距离相关计算方法。该距离分为江提出的实际物理距离和语义距离[11-12]。本文提出了一种新的语义相似度计算方法:

[Sim(c1,c2)=e-(α×L(path)+β×L(IC))](1)

式中的参数说明如下,其中[L(IC)]为与信息系数IC有关的函数,[L(path)]为最短路径距离相关的函数,和语义距离相关的函数,[α]和[β]为参数,参数范围为[α0],[β0]。[L(IC)]与Jiang定义的语义距离公式相同,即:

[L(IC)=IC(c1)+IC(c2)-2×IC(LCS(c1,c2))](2)

其中[IC(c1)]和[IC(c2)]为分别表示本体概念[c1],[c2]的IC值,[LCS(c1,c2)]为[c1],[c2]的公共包含,[IC(LCS(c1,c2))]为概念[c1],[c2]的最小公共包含IC值。公式中的所有IC的计算方法均使用新的IC计算方法。

为了确定最短路径距离[L(path)]对语义相似度的影响,本文给出如下两种[L(path)]的计算方法:

(1)方法1:

[L(path)=Distance(c1,c2)2×Depthmax](3)

(2)方法2:

[L(path)=log(Distance(c1,c2)+1)log(2×Depthmax+1)](4)

其中[Distance(c1,c2)]表示两个概念结点[c1],[c2]的最短路径距离,[Depthmax]为WordNet的最大深度。在计算IC的过程中,使用了诸如深度和密度等语义信息,在语义相似度的计算中使用最短路径距离和深度,因此所提出的方法属于混合语义相似度计算方法[13]。

4个人偏好模型构建和个性化推送服务

4.1个人偏好模型构建

根据语义本体和相似度计算方法,个人偏好模型知识来源如图2所示,分为5个步骤:

1)首先根据个人知识空间、个人显性信息、个人隐性信息构建个人偏

您可能关注的文档

文档评论(0)

132****0155 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档