[发明专利]基于分布拟合的网络表格间的外键关系检测方法有效
申请号: | 201811250624.3 | 申请日: | 2018-10-25 |
公开(公告)号: | CN109472013B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 王宁;王佳敏 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06F16/28 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 黄晓军 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布 拟合 网络 表格 关系 检测 方法 | ||
本发明提供了一种基于分布拟合的网络表格间的外键关系检测方法。该方法包括:检测网络表格间不同属性列之间的包含覆盖关系,根据包含覆盖关系的检测结果筛选出所述网络表格间的候选外键关系对;构建候选外键关系对中候选外键和候选主键的多维分布图,计算出候选外键和候选主键的多维分布图之间的拟合度;根据候选外键和候选主键的多维分布图之间的拟合度判断候选外键关系对是否为真正的外键关系对。本发明既适用于字符类型的外键关系检测,也适用于数字类型的外键关系检测,既能检测单列的外键关系,也能检测多列的外键关系,在具有较高的检测准确性的同时兼具较高的检测效率。
技术领域
本发明涉及网络信息处理技术领域,尤其涉及一种基于分布拟合的网络表格间的外键关系检测方法。
背景技术
互联网上包含大量的结构化表格,为数据集成和检索提供了非常方便和丰富的数据集。为了增强网络表格间的联系和有效利用网络上公开的表格数据,Anish等人试图探测网络表格间潜在的关系,并找到关联表格。而外键关系作为数据库中最重要的约束之一,对于模式设计者来说是非常有价值的,可以用来指定两个语义相关的表格。然而对于来自异构数据源的大量的网络表格,在大多数情况下不会指定外键。因此,发现外键关系是理解和利用网络表格的重要步骤。
目前,现有技术中的外键关系检测方法大都集中于识别表格间的包含依赖关系。但是,仅仅通过包含覆盖来检测外键关系是不够的,最直接的方法是找到真正外键关系应该满足的重要特征。Alexandra Rostin等人提出了一些规则,例如列名相似度、列值平均长度、列值的唯一性和覆盖率等一系列特征,并以此来发现传统关系表上的单列外键关系。但是,对于存在模式信息缺失和噪声数据的网络表格,以上方法并不适用。
Meihui Zhang等人提出利用随机性来替代上述外键关系应满足的一系列规则,并将其应用到了单列和多列外键关系检测中。该方法仅通过属性列列值的分布评估两列数据分布的随机性,并且利用随机性的大小来筛选真正的外键关系。在该方法中,Earth Mover's Distance(EMD,搬土距离)被用来衡量外键中的一组属性值转移到主键中另一组属性值集合上所需要的工作量,并以此值标示随机性大小。当外键值仅在主键的某个区域内均匀分布时,EMD仍会被计算为一个很小的值。
上述现有技术中的外键关系检测方法存在的问题如下:
(1)由于网络表格并不规范,数据会存在噪声及表头缺失的问题,目前大部分依靠表格结构特征的外键检测方法只适用于传统关系表,并不适用于网络表格。
(2)目前的外键检测算法大都只适用于字符型外键关系的检测,并不适用于数字型外键关系的检测。
(3)目前的外键检测算法是对单列外键关系进行检测,或者,通过随机性进行多列外键关系检测,这些方法并不能保证外键在主键中分布的随机性,由于不能解决局部随机性问题,效果并不理想。
发明内容
本发明实施例提供了一种基于分布拟合的网络表格间的外键关系检测方法,以克服现有技术的问题。
为了实现上述目的,本发明采取了如下技术方案。
一种基于分布拟合的网络表格间的外键关系检测方法,包括:
检测网络表格间不同属性列之间的包含覆盖关系,根据所述包含覆盖关系的检测结果筛选出所述网络表格间的候选外键关系对;
构建所述候选外键关系对中候选外键和候选主键的多维分布图,计算出所述候选外键和候选主键的多维分布图之间的拟合度;
根据所述候选外键和候选主键的多维分布图之间的拟合度判断所述候选外键关系对是否为真正的外键关系对。
进一步地,所述的检测网络表格间不同属性列之间的包含覆盖关系,根据所述包含覆盖关系的检测结果筛选出所述网络表格间的候选外键关系对,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811250624.3/2.html,转载请声明来源钻瓜专利网。