[发明专利]一种计算XML文档相似度的方法无效
申请号: | 200910244903.3 | 申请日: | 2009-12-18 |
公开(公告)号: | CN101876995A | 公开(公告)日: | 2010-11-03 |
发明(设计)人: | 汪陈应;袁晓洁;廉鑫;林伟坚 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算 xml 文档 相似 方法 | ||
【技术领域】
本发明属于数据库技术领域,具体涉及一种计算XML文档相似度的方法。
【背景技术】
可扩展标记语言XML已成为Web上表示和交换数据的标准格式。随着XML相关标准的推广和应用,各行各业都以XML作为元语言,制定各自领域特定的子语言,用于存储和共享本领域所涉及的数据。在这种背景下,各个领域都会不断涌现出大量的XML文档。如何从大量文档中挖掘知识成为了当前急需解决的问题。XML数据挖掘是知识发现技术里一个重要的应用,而相似度计算在XML数据挖掘中起基础性的作用。
XML文档挖掘分为内容挖掘和结构挖掘,它可以用于XML数据的提取、整合以及其他一些应用。XML文档是半结构化数据,因而结构挖掘尤为重要。分类、聚类是数据挖掘普遍采用的方法,而XML文档相似度是分类、聚类的基础,是影响挖掘结果的一个重要因素。
目前XML文档相似度计算主要有两类方法,基于树编辑距离的方法和基于频繁路径的方法。其中基于树编辑距离的方法得到了普遍应用,它首先把一篇XML文档表示为一棵有序标签树,例如DOM树。进而通过树编辑距离来衡量XML文档树的相似度。基于树编辑距离有三种经典算法:Selkow、Chawathe和Dalamagas,但树编辑距离算法时间复杂度普遍较高。基于频繁路径的方法可以快速计算文档相似度,但丢失所有的非频繁路径,从而丢失大量的结构信息,正确率相对较低。
【发明内容】
本发明的目的是弥补现有技术存在的上述不足,提出一种新的计算XML文档相似度的方法。该方法使用BPC模型提取出XML文档的结构信息,引入各种权重体现结构层次,基于N-Gram划分方式,通过一次扫描降低了XML文档相似性计算的时间复杂度。
本发明提供的计算XML文档相似度的方法包括如下步骤:
步骤1、将XML文档定义为一棵XML文档树;
步骤2、建立双向路径约束(Bidirectional path constraints,BPC)模型:在步骤1文档树的基础上定义节点的BPC,一篇XML文档包含的所有节点的BPC集合称为双向路径约束模型;
步骤3、使用基于N-Gram的划分方式计算两个祖先路径约束(或孩子路径约束)之间的相似度,统称为路径约束相似度;
步骤4、根据步骤3得出的路径约束相似度计算两个节点的BPC相似度,进而把这个BPC相似度作为这两个节点的相似度;
步骤5、最后文档中所有节点相似度按照节点的结构层次加权求和作为两篇文档的相似度。
本发明的具体计算过程如下:
1.XML文档树
将XML文档定义为一棵XML文档树,具体如下:
定义1.XML文档树:将一棵XML文档树表示为一个6元组T=(V,v0,E,∑,P,lab),其中:
1)、V是文档树中所有节点的集合;
2)、v0是文档树的根节点;
3)、Ea定义了父子约束集合,Ea={(u,v)|u∈V∧v∈V,并且u是v的父亲节点},Es定义了兄弟约束集合,Es={(u,v)|u∈V∧v∈V,并且v是u的右兄弟节点};用E表示约束集合,即E=Ea∪Es;
4)、∑是文档树中节点标签的集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910244903.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海量小文件的存储方法及装置
- 下一篇:一种版面均等化排版方法