[发明专利]模式匹配无效
申请号: | 200680010069.6 | 申请日: | 2006-03-22 |
公开(公告)号: | CN101189607A | 公开(公告)日: | 2008-05-28 |
发明(设计)人: | 贝南·阿斯文;特雷弗·菲利浦·马丁 | 申请(专利权)人: | 英国电讯有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 | 代理人: | 李辉;吕俊刚 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模式 匹配 | ||
技术领域
本发明涉及数据库管理方法和系统,更具体地说,涉及操作对来自多个数据源的数据进行集成的数据库管理系统的方法。
背景技术
随着电子数据存储越来越普及,对来自多个数据源的数据进行集成的问题变得更加严重。根据与网络上的信息集成相关的最新IJCAI-03研讨会的前言:
“在共同数据管理、国家安全、反恐和人类基因组计划等多个领域内,对异构数据库和信息源的有效集成已被认为是最紧迫的挑战。将集成框架升级为大规模应用的最重要的障碍在于以下的事实:数据源的自主和分散特性将中介限制为在具有与它们试图集成的信息源的结构、范围、概况、质量和相互关系相关的极少量信息的情况下进行操作。”(参见www.isi.edu/info-agents/workshops/ijcai03/proceedings.htm)
该问题具有很长的历史,并存在如下两种观点:基于实例(或记录)的方法和基于模式(schema)(或本体论(ontology))的方法。术语“模式”可以指代用于表示计算机化信息存储系统中的与真实世界对象(例如雇员)有关的信息的框架。模式(通常)包括适用于每个对象的多个属性(例如工资单编号、名字、姓氏、年龄等),还可能包括与对属性值的限制有关的信息。数据源通过一组对象的相关联的属性值来表示这些对象。
在USA公共健康领域中,当合并(可能)针对同一患者的不同记录时会出现记录链接(linkage)的问题。Newcombe[1]提出了基于频率的方法并且该方法后来被Fellegi和Sunter[2]进行了形式化(formalise)。这些方法假设两个数据源具有共同属性,并共同适用于商业数据库中的所谓的“合并/清除(merge/purge)”问题,以滤除重复条目。该方法主要用于根据在数据库中的每个属性的域(即,列中出现的所有值的集合)中找到匹配值的可能性来计算该属性的权重。
初始公式处理二元匹配(真/假),但扩展到分类匹配(categoricalmatch)(一小组值中的一个)和连续匹配(例如,区间[0,1]中的一个数)。通过假设对于不同属性匹配的记录之间的条件独立性,可以估计各属性匹配的条件概率,假设这些记录是相同的(或不同的),从而根据匹配的加权总和来找到用于将两个记录分类为匹配或不匹配的阈值。该估计可以基于最小误差概率、最大期望、效用(错误决策的代价)等-参见[3]的综述。
这些方法隐含地考虑了数据库模式的知识,因为这些方法假设各记录包括相同的属性集合。
通过考虑对取自两个或更多个数据源的数据进行组合(例如,对异构数据库的集成)来将记录链接问题扩展到分析链接(也称为实体匹配)。Dey等[4]基于与前一段中概述的记录链接工作相同的框架,给出了概率方法的概要。由于属性的匹配对是已知的,因此也假设了模式的知识。
这些方法利用多种技术来试图对属性进行匹配,例如使名字和地址的形式标准化,以及采用启发法(例如前n个字符匹配、共同的子字符串、编辑距离低于指定阈值)。Bilenko、Mooney等[5]描述了自适应匹配函数“SoftTF-IDF”,其考虑了域内的相似和相同单词的频率。
也可以通过查看标签(即属性名称)和与许可值相关联的约束在模式级求解该问题。
已经提出了对该问题的自动化进行辅助的多个工具,包括
-Cupid[6]
-Glue[7]
-OntoBuilder[8]
-Prompt[9]
Rahm和Bernstein[10]通过源自以下领域的方法考察了这些工具中的一些,并将模式匹配分类为三个主要的组:
-信息获取-利用基于距离的匹配技术(例如编辑距离)来克服准确性不足的“基于关键字”的匹配。这些技术假设都利用了属性域之间的非常简单的映射。
-机器学习-利用基于属性的相关联的值之间的相似性来创建属性之间的映射的算法。贝叶斯(bayesian)分类器是最常用的方法(例如GLUE[7]和Autoplex[11])。
-图论-通过将图式(schemata)表示为树或图的形式,例如通过估计叶节点的祖先的相似性而估计XML DTD中的叶节点的相似性的TreeMatch算法[6]。
还有多种将上述分类的方法进行组合的模式匹配的混合方法。
Gal等[12]认识到需要包括匹配过程中的不确定性,并概述了模式集成的模糊框架。Gal还考察了对图式之间的匹配进行评价的问题,与人实现的抽象的“理想”匹配进行比较。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英国电讯有限公司,未经英国电讯有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680010069.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:石油钻杆接头耐磨带结构
- 下一篇:单体液压支柱远程控制装置