[发明专利]一种可扩展标记语言模式匹配方法无效
申请号: | 201310192029.X | 申请日: | 2013-05-13 |
公开(公告)号: | CN103294791A | 公开(公告)日: | 2013-09-11 |
发明(设计)人: | 霍红卫;郭海涛;高培;张懿璞;于强;孙春晓;郭鸿志 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扩展 标记 语言 模式 匹配 方法 | ||
技术领域
本发明属于通信技术领域,更进一步涉及数据处理技术领域中的一种可扩展标记语言(eXtensible Markup Language XML)模式匹配方法。本发明可根据模式的名称和结构信息,对两个输入可扩展标记语言模式文档自动进行可扩展标记语言模式匹配,找出两个文档中所有相似元素之间的映射,用于确定不同可扩展标记语言数据之间的相似性。
背景技术
随着Internet的发展,可扩展标记语言应运而生并成为了网络中数据表示、数据分析和数据交换的标准。由于可扩展标记语言数据描述的灵活性,可扩展标记语言文档数量和规模的日益增大,如何高效的管理大规模可扩展标记语言数据以及集成大量的可扩展标记语言数据资源变得十分重要。因此,用于识别可扩展标记语言模式之间元素一致性的可扩展标记语言模式匹配技术成为研究热点。
可扩展标记语言模式匹配以两个可扩展标记语言模式作为输入,使用不同的相似值计算方法得到两个可扩展标记语言模式之间的一个映射。可扩展标记语言模式匹配在数据共享应用领域发挥着重要作用:在数据集成中,它可用于识别并标记多个模式之间的内部模式关系;在数据仓库中,它能够将一个数据资源映射到仓库模式;在电子商务中,它可以实现不同可扩展标记语言格式之间的消息映刺;在语义网络中,它可以用来建立不同网站的本体概念之间的语义对应关系;在数据迁移中,它能够将来自多个资源的遗留数据迁移为一个新的数据;在数据转换中,它能够将一个源对象映射为目标对象;在XML数据集群中,它可以用来确定不同可扩展标记语言数据之间的语义相似性。
早期的模式匹配通常是手工完成的,手动指定模式匹配是一个浪费时间、容易出错并且开销很大的过程。当前,大量自动模式匹配算法和匹配系统相继提出,如LSD(Learning Source Descriptions),Cupid,COMA(COmbination of MAtching algorithims),Similarity Flooding,AgreementMaker,ASMOV(Automated Semantic Matching of Ontologies with Verification),OII Harmony等。现有的大量模式匹配算法和系统虽然实现了模式的半自动或全自动匹配,匹配质量也较高,但可扩展标记语言自动模式匹配中仍然存在许多缺陷。首先,大部分匹配算法仅发现简单匹配(1:1匹配),发现复杂匹配仅有较少的方法。其次,大部分匹配算法主要考虑模式之间的整体相似性,忽略了独立元素之间的相似度,而可扩展标记语言模式的元素相似性研究能够很好的支持半自动和劳动密集型活动,比如可扩展标记语言模式集成。最后,也是最重要的是大部分匹配系统仅仅关注匹配质量,忽略了匹配效率,使得大规模数据的匹配效率极低。比如元素名称匹配中借助外部词典(WordNet等)进行语义相似匹配,这虽然提高了名称匹配的准确率,但频繁的查词会大大增加匹配时间。
南开大学提出的专利申请“基于扩展邻接矩阵的XML文档结构及语义相似性计算方法”(申请号201010118060.5申请公布号CN101799825A)公开了一种基于扩展邻接矩阵的可扩展标记语言文档结构及语义相似性计算方法。该方法的具体步骤是:第一,输入可扩展标记语言文档,并对可扩展标记语言文档树进行编码;第二,对于编码后的两个文档,生成模式文档节点列表和数据源文档节点列表;第三,基于所生成的两节点列表,生成模式扩展邻接矩阵和数据源扩展邻接矩阵;第四,使用余弦定理计算两邻接矩阵的距离,得出两个可扩展标记语言文档的相似值。该专利申请存在的不足是:首先,该方法仅在文档层次上度量模式的相似性,而未深入到文档的元素这一更细的粒度上,这就使得该方法不能用于基于可扩展标记语言模式元素间映射的数据处理应用中;其次,该方法仅使用节点标签、节点层次信息、节点编码信息和节点的父节点信息这些有限的信息,作为度量节点的相似性的依据,可能会在相似值计算中产生较大的误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310192029.X/2.html,转载请声明来源钻瓜专利网。