[发明专利]一种实现数据库模式自动匹配的方法无效
申请号: | 200910026030.9 | 申请日: | 2009-03-17 |
公开(公告)号: | CN101504654A | 公开(公告)日: | 2009-08-12 |
发明(设计)人: | 李小平;王茜;王峰;黄聃 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 | 代理人: | 许 方 |
地址: | 21009*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 数据库 模式 自动 匹配 方法 | ||
技术领域
本发明涉及一种实现数据库模式自动匹配的方法,属于数据库技术领域。
背景技术
模式匹配在许多应用中都起着关键作用,如数据仓库中的数据抽取过程需要将数据源的数据按仓库的格式转换;电子商务信息交换的处理中的异构消息的映射;以及数据集成中全局视图的构建。
由于准确的语义信息只有模式设计者才能真正掌握,不能在模式本身中完全表达,所以模式匹配的自动实现是一个难以解决的问题,使得模式的匹配工作经常要用户大量参与,成为数据交换的应用中的瓶颈问题。一个高效的模式匹配算法需要一系列的基础技术的组合,包括综合考虑语言学相关知识、数据类型的内在关联、数据实例间的关系以及领域知识等等。
目前模式匹配主要有基于模式内部信息的模式匹配和基于大规模数据以及背景知识的模式匹配等两类。基于待匹配模式内部信息的模式匹配优点在于整合模式内聚信息,其局限性在于模式自身语义的不完备;基于大规模数据以及背景知识的模式匹配方法充分利用了数据实例或者以往的匹配结果,但往往不具备通用性,并且学习数据较难获取。同时,现有方法在以下方面存在缺陷:
1、多对多的复杂匹配情况的处理;
2、同名异义字段的匹配;
3、算法的执行效率。
发明内容
本发明的目的是针对现有技术的不足,提供一种实现数据库模式自动匹配的方法。
本发明解决其技术问题采用的技术方案是:
一种实现数据库模式自动匹配的方法,该方法包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤;
(1)所述模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息,包括以下步骤:
A、获取源数据库模式XML文档及目标数据库模式XML文档;
B、使用XML解析工具DOM4J解析XML文档;
C、整理解析出的模式元素信息,分别生成源模式元素名集合、源模式元素名与元素描述对集合、源模式元素名与元素类型对集合、目标模式元素名集合、目标模式元素名与元素描述对集合以及目标模式元素名与元素类型集合;
(2)所述模式信息分类用于归类模式信息分析阶段分析出的模式元素信息,将所有元素分别按名称、描述以及类型进行分类;主要包括名称分类方法,描述分类方法以及类型分类方法;
所述名称分类方法用于根据模式元素名对源模式元素进行分类,并且计算每个目标模式元素隶属于源模式各类别的隶属度,包括以下步骤:
D、获取源模式元素名称集;
E、对源模式元素按分隔符分解并去除公共前缀;
F、对该词集进行同义词扩展;
G、对该同义词集中的元素进行3段解析后得文本集,该文本集实际就表示了类别所具有的特征;
H、各类别以及标识各类别的特征文本集作为训练样例送入名称分类方法,以供分类方法学习各类别特征;未经过训练样例学习的分类方法不具有分类新样例的能力;
I、对目标模式元素,直接将各目标模式元素的3段解析字符串的集合作为待分类样例送入已经学习完的名称分类方法,以计算出各字符串对应各源模式的各类别的评估值,各评估值将会作为模式整合阶段的形式概念上下文的数据进行整合,名称分类方法的输出结果的形式化表示如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910026030.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防治害虫的真菌颗粒剂的制造方法
- 下一篇:一种带束层环形胎面