[发明专利]一种计算XML文档相似度的方法无效

申请号：	200910244903.3	申请日：	2009-12-18
公开（公告）号：	CN101876995A	公开（公告）日：	2010-11-03
发明（设计）人：	汪陈应;袁晓洁;廉鑫;林伟坚	申请（专利权）人：	南开大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	天津佳盟知识产权代理有限公司 12002	代理人：	侯力
地址：	300071***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种计算 xml 文档相似方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

【技术领域】

本发明属于数据库技术领域，具体涉及一种计算XML文档相似度的方法。

【背景技术】

可扩展标记语言XML已成为Web上表示和交换数据的标准格式。随着XML相关标准的推广和应用，各行各业都以XML作为元语言，制定各自领域特定的子语言，用于存储和共享本领域所涉及的数据。在这种背景下，各个领域都会不断涌现出大量的XML文档。如何从大量文档中挖掘知识成为了当前急需解决的问题。XML数据挖掘是知识发现技术里一个重要的应用，而相似度计算在XML数据挖掘中起基础性的作用。

XML文档挖掘分为内容挖掘和结构挖掘，它可以用于XML数据的提取、整合以及其他一些应用。XML文档是半结构化数据，因而结构挖掘尤为重要。分类、聚类是数据挖掘普遍采用的方法，而XML文档相似度是分类、聚类的基础，是影响挖掘结果的一个重要因素。

目前XML文档相似度计算主要有两类方法，基于树编辑距离的方法和基于频繁路径的方法。其中基于树编辑距离的方法得到了普遍应用，它首先把一篇XML文档表示为一棵有序标签树，例如DOM树。进而通过树编辑距离来衡量XML文档树的相似度。基于树编辑距离有三种经典算法：Selkow、Chawathe和Dalamagas，但树编辑距离算法时间复杂度普遍较高。基于频繁路径的方法可以快速计算文档相似度，但丢失所有的非频繁路径，从而丢失大量的结构信息，正确率相对较低。

【发明内容】

本发明的目的是弥补现有技术存在的上述不足，提出一种新的计算XML文档相似度的方法。该方法使用BPC模型提取出XML文档的结构信息，引入各种权重体现结构层次，基于N-Gram划分方式，通过一次扫描降低了XML文档相似性计算的时间复杂度。

本发明提供的计算XML文档相似度的方法包括如下步骤：

步骤1、将XML文档定义为一棵XML文档树；

步骤2、建立双向路径约束(Bidirectional path constraints，BPC)模型：在步骤1文档树的基础上定义节点的BPC，一篇XML文档包含的所有节点的BPC集合称为双向路径约束模型；

步骤3、使用基于N-Gram的划分方式计算两个祖先路径约束(或孩子路径约束)之间的相似度，统称为路径约束相似度；

步骤4、根据步骤3得出的路径约束相似度计算两个节点的BPC相似度，进而把这个BPC相似度作为这两个节点的相似度；

步骤5、最后文档中所有节点相似度按照节点的结构层次加权求和作为两篇文档的相似度。

本发明的具体计算过程如下：

1.XML文档树

将XML文档定义为一棵XML文档树，具体如下：

定义1.XML文档树：将一棵XML文档树表示为一个6元组T＝(V，v₀，E，∑，P，lab)，其中：