[发明专利]基于最近邻搜索的关系表集合外键识别方法有效

专利信息
申请号: 201510616597.7 申请日: 2015-09-22
公开(公告)号: CN105095522B 公开(公告)日: 2018-09-25
发明(设计)人: 袁晓洁;蔡祥睿;柴娅乐;刘云鹏;温延龙 申请(专利权)人: 南开大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 天津佳盟知识产权代理有限公司 12002 代理人: 侯力
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 近邻 搜索 关系 集合 识别 方法
【说明书】:

发明公布了一种基于最近邻搜索的关系表集合外键识别方法,属于数据库技术应用领域。本发明的基本步骤如下:首先改进现有的包含依赖识别方法,找出关系表中单属性和多属性的包含依赖;然后计算满足包含依赖的属性特征,包括特异元组个数、属性名、元组均值、元组方差、元组平均长度和中位数等,并将这些特征映射到高维欧氏空间中,用得到的高维向量表示原属性;最后基于外键是主键的最近邻,通过最近邻查找方法找出关系表集合中所有的外键。本发明提出的关系表集合外键识别方法,能够为大规模关系表集合自动构建外键关系提供一种有效的解决方案,该发明能应用于数据库设计、数据集成、模式匹配等领域。

技术领域

本发明属于数据库技术领域,具体涉及一种新型的关系表集合外键识别技术。

背景技术

数据库模式是理解数据库结构与特征的基础,在数据建模、查询优化、数据索引等方面具有重要作用。在关系数据库中,主键、外键关系是数据库模式的重要组成部分。虽然绝大多数的数据库管理系统支持显式地指定表与表之间的外键关系,但在实际数据库应用中,往往有很多原因导致外键关系不完整,如开发者对数据理解不够透彻、数据自身存在不一致性、设计数据库时考虑到效率等。同时,随着数据库关系模式复杂度的增加,人工识别数据表之间的外键越来越困难。自动识别数据表之间的外键关系,不仅是查询优化和数据集成的基础,而且有助于数据库开发者和维护者改进数据库设计。因此,如何有效识别数据表之间的外键关系具有重要理论意义与实际应用价值。

鉴于外键识别的重要性,国内外许多研究者已做过相关研究,主流的研究方法是将外键识别分为两个阶段:首先发现关系表集合中的包含依赖,缩小外键候选集的范围,然后利用外键的特征识别外键。在关系数据库中,“外键中的元组集合是其参照的主键元组集合的子集”,所以外键一定满足包含依赖。但是,仅仅发现包含依赖是不够的,比如数据库中的自增列,在很多数据库实例中,自增列之间满足包含依赖关系,但实际上它们各自是独立的,是相应表的主键,相互之间并没有外键关系。给定一个数据库实例,满足包含依赖但并不是外键的属性在所有的包含依赖中占有很大比例。因此,为了能准确地发现数据表集合中的外键,需要采用有效的方法过滤掉非外键包含依赖。

RostinA等针对大量的数据库系统实例进行统计,总结出了外键的十个特征(外键元组应该覆盖很多主键元组,作为外键的属性往往不再作为主键被其他外键参照等),Rostin A等利用这些特征使用机器学习来识别外键,但他们提出的这些特征都很容易找出反例。

Meihui Zhang等也通过分析提出了外键的另一特征——“外键元组是其参照的主键元组的均匀随机样本”,据此设计算法并实现,取得了很好的实验结果。现在外键发现的研究主要集中在单个属性的外键识别,很少有研究考虑了多属性的外键识别,主要原因可能是多属性外键识别的算法复杂度较高,而且由于数据库管理系统引入了自增列,数据库设计者很少在数据库系统中设计多属性外键。

除了基于包含依赖的外键识别方法,Lopes等提出了使用SQL查询历史来推断外键,该方法主要基于“SQL查询中的JOIN操作往往是在主键和外键上进行连接”,这种方法需要大量的SQL查询历史,而SQL查询日志一般是难以获得的。此外,这种方法本身也可能带来一些误报,比如:T2.ID和T3.ID都参考T1.ID,实际查询时也有可能连接(JOIN)T2和T3表,但是T2.ID和T3.ID之间没有外键关系。

外键识别本质上是依靠外键和主键之间固有的语义联系,现有技术方法从不同角度反映属性之间的语义关联程度,但现有算法对外键特征考虑并不全面,无法处理不同领域的外键识别问题。另一方面,现有的外键识别算法模型复杂,难以应用到大规模关系表集合上。

发明内容

本发明的目的是解决大规模关系表集合中外键识别问题,使用统计特征表示关系表中的属性,将关系表外键识别问题转化成高维空间中最近邻搜索问题,提出了一种高效简洁的外键识别方法——基于最近邻搜索的关系表集合外键识别方法。该方法在提高外键识别效率的同时还能保证外键识别的准确度,易于应用到大规模关系表集合上。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510616597.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top