[发明专利]一种推断XML关键字查询目标节点类型的方法无效
申请号: | 201310193561.3 | 申请日: | 2013-05-22 |
公开(公告)号: | CN103279514A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | 冯钧;朱祖会;唐志贤;许潇;徐黎明;朱跃龙;万定生;李士进;任锋;盛震宇;史涯晴;冯读庆;姜康;陈焕霖;朱康康;刘子源 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 推断 xml 关键字 查询 目标 节点 类型 方法 | ||
技术领域
本发明涉及信息检索中推断用户搜索意图的方法,具体是一种推断XML关键字查询目标节点类型的方法,属于信息检索技术领域。
背景技术
由于具备可扩展性、灵活性和自描述性,XML逐渐成为信息系统中数据存储与交换的公认标准和复杂数据的理想载体,在互联网中得到广泛使用。因此,XML的查询处理问题逐步成为了XML研究领域的一个热点。
现有的XML查询方法可以归纳为结构化查询和关键字查询。前者大都使用结构化查询语言(XQuery或Xpath)对XML文档进行查询,用户必须事先掌握查询语言复杂的语法机制并了解XML文档的模式信息,这对使用者提出了严格的要求,随着互联网的蓬勃发展,XML数据日益增长,这一问题将被放大,限制其使用范围。与结构化查询不同的是,基于关键字的查询方法不必了解查询语言语法机制以及XML文档模式信息,只需要用户检索关键字即可,成为互联网环境下XML检索的理想解决方案。
目前,XML关键字查询方法主要围绕如何定义有效的查询语义展开研究。LCA(Lowest Common Ancestor)方法直接将关键字的最低公共祖先作为查询结果返回。SLCA(Smallest LCA)方法是找到最小的LCA节点,即LCA节点V包含所有关键字,并且在V的子树中不包含其他LCA节点。XSEarch方法提出了用于判断两个节点之间是否语义相关Interconnection概念,即对于XML文档中的两个节点,若在连接这两个节点的路径上没有出现两个相同标签的节点,那么他们就是语义相关的,否则就是语义无关。ELCA(Exclusive LCA)提出若一个关键字查询序列Q的LCA节点V,在去掉其子树中包含的所有LCA子树后仍然是一个LCA,称V为ELCA节点。XSeek方法借鉴了结构化查询中将输入关键字分类的思想,将查询关键字分为结果关键字和谓词关键字两大类。结果关键字是用户真正想要的信息,而谓词关键字则充当了限制条件的角色。首先找到关键字序列的SLCA集合,然后对集合中的每一个节点为根的子树判断哪些是结果关键字,哪些是谓词关键字,最后若子树中含有结果关键字,则返回以结果关键字为根的子树,否则,返回以SLCA节点为根的子树。
上述方法没有考虑到关键字的二义性,无法推断出用户搜索意图,限制了查准率。XReal利用统计学方法来解决二义性问题,但是在推断目标节点时,并不能保证所得到的目标节点类型存在一个或多个实例节点含有全部关键字。以致于查询率不高。
发明内容
发明目的:针对上述背景技术的不足,本发明提出一种推断XML关键字查询目标节点类型的方法,基于词频和节点类型的层次信息,并结合目标节点类型应存在一个或多个实例节点包含全部关键字这一因素,推断目标节点类型。
技术方案:一种推断XML关键字查询目标节点类型方法,包括如下步骤:
步骤A:获取XML文档中的实体节点类型以及计算各实体节点类型的层次。
步骤B:计算查询关键字在不同实体节点类型下出现的频率即词频。
步骤C:计算各实体节点类型与查询关键字的相关度并对实体节点类型按相关度降序排序。
步骤D:获取相关度最大的实体节点类型。
步骤E:判断是否存在实例节点含有所有的查询关键字。若存在,转到步骤F;否则获取下一个实体节点类型,执行E。
步骤F:将该实体节点类型作为目标节点类型返回。
所述推断XML关键字查询目标节点类型方法步骤A的具体实现如下:
步骤A-1:根据定义:在XML文档树中,若节点n的上一层父节点与本层节点间存在一对多的关系,称n为实体节点。节点n的节点类型为根节点到节点n的前缀路径。若节点n为实体节点,则节点n的节点类型为实体节点类型。得到XML文档的所有实体节点类型。
步骤A-2:使用列表按层次高低依次存储实体节点类型的层次信息,层次相同的节点类型合并为一个元素存入列表中。
所述的推断XML关键字查询目标节点类型方法步骤C具体实现如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310193561.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:非结构化数据检索方法及系统
- 下一篇:一种采用动态查询语言的快速查询方法