[发明专利]一种基于Pagerank的语义网对象排序方法无效
申请号: | 200810121365.4 | 申请日: | 2008-10-09 |
公开(公告)号: | CN101388025A | 公开(公告)日: | 2009-03-18 |
发明(设计)人: | 吴朝晖;宓金华;姜晓红 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州九洲专利事务所有限公司 | 代理人: | 陈继亮 |
地址: | 310027浙江省杭州市西湖区浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 pagerank 语义 对象 排序 方法 | ||
技术领域
本发明涉及搜索引擎,搜索排序,语义网络领域,特别是涉及一种基于Pagerank的语义网对象排序方法。
背景技术
近年来,搜索引擎因其能够在几乎无限的资源中为广大用户找到所需的信息而越来越受到重视。优秀的搜索引擎也不断涌现,如:Google,ODP等,这其中基于链接分析的第三代搜索引擎(如Google)则凭借其较高的搜索准确率而成为当前搜索引擎的主流。
然而当前搜索引擎仍然存在着查准率太低的问题,搜索结果充斥着太多的无用信息。语义网应运而生,但是传统的网络排序模型不能分析语义网文件的内部结构,对语义网并不适合,因此业界急切地需要语义网搜索引擎,如Swoogle等搜索引擎也开始出现。但这些搜索引擎主要面对文件排序,不能满足用户对知识对象排序的需求。为了得到更好的效果,有必要引入新的语义网排序模型来解决这个问题。语义排序网则在这里发挥作用,我们以语义对象为单元构建语义排序网,将语义文件和语义术语放在同一级别上,更加突出语义术语的地位。
同时,现有方法还有一个共同的不足之处就是他们没有充分利用包含在链接网络结构上的信息。现有链接分析技术的基础是“一致链接网络”,即网络结构中所有链接都是一致的。
发明内容
本发明的目的在于克服上述技术的缺陷,而提供一种基于Pagerank的语义网对象排序方法。
本发明的目的是通过以下技术方案来实现的。这种基于Pagerank的语义网对象排序方法,包括以下步骤:
1)从互联网上搜集语义网文件,并获取其中的语义网术语,语义网术语是指语义网文件里的语义单元,相当于一个词;它们是类型即主语或宾语,或是属性即谓语;
2)在语义网文件之间、语义网术语之间、语义网文件和术语之间添加附加路径,构建链接丰富的语义对象网;
3)根据链接丰富的语义对象网的邻接关系,采用Pagerank链接分析算法为语义网对象计算排序值。
步骤(1)中语义网术语和所在的语义网文件一起作为语义网对象,作为被排序的单元考虑,组成语义对象网,供后续步骤使用。
步骤(2)中,根据W3C的RDF和OWL推荐标准,语义网文件之间除了超链接之外,添加“定义”、“另见”、“引入”、“本体属性”路径;语义网术语之间添加“相同名字空间”、“相同本地名称”、“扩展”、“类属性结合”路径;语义网文件和术语之间添加“使用”、“定义”、“自定义”路径,由此获得链接丰富的语义网,供后续步骤排序。
步骤(2)中,根据W3C的RDF和OWL推荐标准,添加路径是由标准的语义获得的。例如,语义网文件之间:“定义”路径由rdfs:isDefinedBy得来、“另见”路径由rdfs:seeAlso得来、“引入”路径由owl:imports得来、“本体属性”路径由owl:OntologyProperty的实例得来等;语义网术语之间:“相同名字空间”和“相同本地名称”路径分别由两个术语具有相同的名字空间和本地名称得来、“扩展”路径由rdfs:subClassOf、owl:inverserOf或owl:completementOf得来、“类属性结合”路径由rdfs:domain得来等;语义网文件和术语之间:“使用”路径由rdf三元组关系中“主谓”或“谓宾”关系得来、“定义”路径由rdf:type得来,此外用户和智能代理软件还可以添加“自定义”路径。由此获得链接丰富的语义网,供后续步骤排序。
步骤(3)中语义排序网采用Pagerank算法时,两对象间有多条链接,采用链接无权重方法,所有链接权重相同;
一个语义对象A有对象T1、T2…Tn指向它,那么A的Pagerank值计算方式如下:
PR(A)=(1-d)+d(PR(T1)/C(T1)+PR(T2)/C(T2)+…+PR(Tn)/C(Tn))
步骤(3)中语义排序网采用Pagerank算法时,采用链接有权重方法,让用户自定义链接权重,那么A的Pagerank值计算方式如下:
PR(A)=(1-d)+d(f(T1,A)*PR(T1)/∑exist(T1,x)f(T1,x)+f(T2,A)*PR(T2)/∑exist(T2,x)f(T2,x)+…+f(Tn,A)*PR(Tn)/∑exist(Tn,x)f(T1,x))
其中:
d:一个0到1的系数,
C(A):A指向的对象数目;
f(Tx,A):Tx到A链接的权值;
exist(Tx,x):存在Tx到x的链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810121365.4/2.html,转载请声明来源钻瓜专利网。