[发明专利]一种基于查询工作量估算的XML分片方法无效
申请号: | 201110200086.9 | 申请日: | 2011-07-18 |
公开(公告)号: | CN102325161A | 公开(公告)日: | 2012-01-18 |
发明(设计)人: | 张静;郎波;段亚伟;牛虹婷;李未 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 李新华 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 查询 工作量 估算 xml 分片 方法 | ||
技术领域
本发明涉及一种针对海量XML的分布式存储与并行查询的高效XML分片方法,尤其涉及一种在未知用户查询的前提下根据XML自身结构进行查询工作量估算从而达到更好的查询负载均衡的分片方法。
背景技术
eXtensible Markup Language(XML)作为可扩展标记语言,具有扩展性、自描述性、自相容性等优点,已成为Internet上数据表示、存储和交换的标准。于是海量XML数据的生成使XML的有效存储管理成为新的问题。并行XML处理是一种有效解决方案,而数据分片是影响并行系统整体性能的最关键因素。
查询负载均衡是影响并行查询效率的重要因素,在之前的XML分片方法研究中,如XGP、WIN方法已经考虑到了负载均衡,但是需要根据用户查询来进行分片,在最常用的应用场景下,在XML存储时用户查询是未知的。再者,一些XML分片方法是将XML映射为关系数据表,然后对关系数据表进行分片。然而将XML映射为关系数据表是低效的,而且破坏了XML本来的结构特征。最后,扩展性也是XML分片方法需要考虑的。NSNRR、PSPIB、WIN等方法均将XML划分为N个片段然后分发到N个节点上。如果集群扩展,那么重新组织分布在N个结点上的数据就会开销很大。
所以,针对XML分布式存储和并行处理的应用场景以及特性,提出一种新的高效的XML分片方法有重要意义。
发明内容
本发明的技术解决问题:克服现有方法的不足,提出一种基于查询工作量估算的XML分片方法,用XML自身结构进行查询工作量的估算,无需使用用户查询。且以查询工作量估算值作为XML文档的存储度量,将XML划分为查询工作量约为W0的片段,均匀分布在各个节点上,以支持集群扩展性,并在并行查询时达到更好的负载均衡。
本发明的技术解决方案:一种基于查询工作量估算的XML分片方法,其特征在于步骤如下:
(1)将XML树中每个结点编码。编码规则参考区间编码Zhang编码,由于所有结点均处于同一文档,故省略文档编号doc_id属性,添加查询工作估算值workload属性,用于存放以该结点作为根节点的子树的查询工作量估算值。
(2)为每个结点生成相关的XPath查询步。查询步中以该结点为祖先或父亲结点,生成相应的包含查询步。
(3)查询工作量估算。对一个XML文档树从根结点开始,采用深度优先遍历的顺序,递归的对所有的结点进行查询工作量估算。
(4)基于查询工作量估算结果进行XML分片。XML文档树被划分为查询工作量估算值约为W0的各个子树。
(5)XML分配。将分片后的XML片段以查询工作量估算值升序排序,以一种“回形”的方式分发到各个处理节点上。
根据本发明的又一个方面,其中步骤(3)进一步包括步骤:
(3.a)从XPath查询步队列中提取出与该结点相关的XPath查询步列表;
(3.b)对XPath查询步列表中的每个查询步进行连接结果大小估算,将估算值添加到变量workload中;
(3.c)如果该结点为叶子节点,则返回workload;
(3.d)如果不是叶子节点,则遍历该结点的孩子结点,递归调用该方法,以孩子结点作为参数,将其返回值添加到workload,重新转向(a)。
根据本发明的又一个方面,其中步骤(4)进一步包括:
(4.a)设变量PN表示可能的分割结点列表,finalPN表示最终的分割结点列表,初始将root加入PN,finalPN中为空;
(4.b)如果PN不为空,从PN中取出一个结点node;如果PN为空,转向步骤(f);
(4.c)如果node的workload不在W0附近且大于W0,则将其孩子结点全部加入PN;
(4.d)如果node的workload在W0附近,则将node加入finalPN;
(4.e)如果node的workload不在W0附近且小于W0,则将node加入tempList中,转向步骤(b);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110200086.9/2.html,转载请声明来源钻瓜专利网。