[发明专利]一种XML文档的流水线XPath查询方法、终端设备及存储介质有效

专利信息
申请号: 202011420888.6 申请日: 2020-12-08
公开(公告)号: CN112528082B 公开(公告)日: 2022-05-03
发明(设计)人: 陈荣鑫;王宗跃;谢书童;王智谨;陈杰 申请(专利权)人: 集美大学
主分类号: G06F16/832 分类号: G06F16/832;G06F16/81;G06F16/835
代理公司: 厦门市精诚新创知识产权代理有限公司 35218 代理人: 何家富
地址: 361000 福*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 xml 文档 流水线 xpath 查询 方法 终端设备 存储 介质
【说明书】:

发明涉及一种XML文档的流水线XPath查询方法、终端设备及存储介质,该方法中包括:S1:获取输入的XML文档;S2:获取输入的XPath查询表达式,并提取XPath查询表达式中包含的所有统计变量的类型;S3:对XML文档进行解析,以获取XML文档对应的节点的区间编码信息和关系索引,同时根据提取的统计变量的类型对XML文档中的各统计变量进行统计并计算XML统计信息;S4:根据获取的节点的区间编码信息、关系索引、XML统计信息以及XPath查询表达式,对XPath查询表达式包含的所有查询原语构建流水线;S5:分配线程至流水线的各流水阶段后执行流水线查询;S6:输出查询结果。本发明采用流水化的查询原语进行基于关系索引的查询步处理。

技术领域

本发明涉及XML文档查询领域,尤其涉及一种XML文档的流水线XPath查询方法、终端设备及存储介质。

背景技术

半结构化数据在Web应用和信息集成领域中十分常见。XML作为一种强大的半结构化数据描述工具,已成为数据存储和交换的标准被广为使用。XPath作为一种在XML数据中查找信息的专用语言,是XML数据处理的基础,其性能直接关系到XML应用的处理能力。近年来随着多核计算环境的普及,充分利用多线程并行计算资源以获取应用处理性能的提升已成为一种常用的优化设计途径。

从语义角度看,XPath求值就是根据节点关系条件定位XML树的节点的过程。XPath表达式中每个查询步获得前驱查询步的求值结果后,完成本步骤计算,再把结果传递给后继查询步,查询步之间的处理存在内在串行性,难以直接对XPath查询的整体进行并行化处理。另一方面,XPath查询过程具备数据流处理的基本特点,可适应流水化处理方式。然而各个查询步的计算结果大小往往难以预测,可能相差很大,查询步之间存在负载不平衡现象,容易造成处理性能下降。

发明内容

为了解决上述问题,本发明提出了一种XML文档的流水线XPath查询方法、终端设备及存储介质。

具体方案如下:

一种XML文档的流水线XPath查询方法,包括以下步骤:

S1:获取输入的XML文档;

S2:获取输入的XPath查询表达式,并提取XPath查询表达式中包含的所有统计变量的类型;

S3:对XML文档进行解析,以获取XML文档对应的节点的区间编码信息和关系索引,同时根据提取的统计变量的类型对XML文档中的各统计变量进行统计并计算XML统计信息;

S4:根据获取的节点的区间编码信息、关系索引、XML统计信息以及XPath查询表达式,对XPath查询表达式包含的所有查询原语构建流水线;

S5:分配线程至流水线的各流水阶段后执行流水线查询;

S6:输出查询结果。

进一步的,提取的统计变量的类型包括Nτ1,Nτ1*和Nτ1θτ2,其中:Nτ1表示XML文档中,标签名为τ1对应的所有节点的总数;Nτ1*表示XML文档中,所有以标签名为τ1的节点作为根节点的子树内包含的所有节点的总数;Nτ1θτ2表示XML文档中,所有以标签名为τ1的节点作为根节点的子树内包含有θ关系且标签名为τ2的节点的总数,θ表示节点之间关系。

进一步的,节点的区间编码信息通过6元组表示,即设定节点u的区间编码εu为εu=id,nodeType,tagName,begin,end,level,其中,u表示节点的序号;id表示节点唯一编码;nodeType表示节点类型;tagName表示节点的标签名;begin表示节点在文档中的开始位置;end表示节点在文档中的结束位置;level表示节点的层次值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于集美大学,未经集美大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011420888.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top