[发明专利]基于最近邻搜索的关系表集合外键识别方法有效

专利信息
申请号: 201510616597.7 申请日: 2015-09-22
公开(公告)号: CN105095522B 公开(公告)日: 2018-09-25
发明(设计)人: 袁晓洁;蔡祥睿;柴娅乐;刘云鹏;温延龙 申请(专利权)人: 南开大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 天津佳盟知识产权代理有限公司 12002 代理人: 侯力
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 近邻 搜索 关系 集合 识别 方法
【权利要求书】:

1.一种基于最近邻搜索的关系表集合外键识别方法,其特征在于该方法包括:

第1、识别关系表集合中的包含依赖

定义1:如果A,B满足如下两个条件,则属性对(A,B)满足包含依赖,记作其中A表示依赖属性,B表示被参照属性:

(1)A,B有相同的属性个数;

(2)属性A中的元组包含在属性B中;

定义2:C,D分别为两个属性,包含系数定义如下:

在实际应用中,如果C和D满足σ(C,D)≥θ,其中θ是自定义的,就认为C和D满足包含依赖;

第1.1、使用并行算法识别关系表集合中的单列包含依赖,其具体步骤包括:

第1.1.1、查询属性中的所有元组,去除属性中的重复元组并对元组按从小到大进行排序;

第1.1.2、假设属性集合为{A1,A2,…,An},初始时,属性Ai能够参照的属性为{A1,A2,…,Ai-1,Ai+1,…,An},i∈{1,2,3,…,n},各属性有一个指向最小元组的指针;

第1.1.3、通过移动指针并行地按序遍历第1.1.1步得到的属性元组,通过比较元组值是否存在于某个属性中,确定属性之间的参照与被参照关系,当元组a∈Ai,则能够确定从Ai的候选属性集合中删除Aj,按此方法遍历所有元组值,如果Ai的候选属性集合中仍有属性,即为包含Ai的属性;

第1.2、识别关系表集合中的多列包含依赖,其具体步骤包括:

第1.2.1、候选属性对集合剪枝

包含依赖的投影包含性质:

若m个属性满足包含依赖,则其中任意m-1个属性必定也对应满足包含依赖,即其中ti∈{1,2,…,m};

该性质能够用来对多列包含依赖候选集剪枝,假设现有A、B、C、D、E、F六个属性,A、B、C在关系表1中,D、E、F在关系表2中,通过第1.1步得到则能够推出即这五组属性对不用再比较;所述外键识别方法的属性对生成策略是自底向上的生成候选属性对,利用较少属性的候选对判断结果,对更多属性的属性对进行剪枝;

第1.2.2、查询候选属性组合的所有元组,去除重复元组并按从小到大进行排序,排序方法:先按组合中第一属性的大小排序,若第一属性值相等,按第二属性的大小排序,依此类推;

第1.2.3、使用与第1.1.2步和第1.1.3步类似的方法,并行遍历第1.2.2步得到的属性元组,确定属性组合之间的包含关系;

第2、从包含依赖集合中筛选出外键

鉴于主键、外键属性本质上的语义相关性,通过查找属性集合中主键的最近邻找出对应的外键;

第2.1、以属性的统计特征来表示一个属性,经过第1.1.1步以及第1.2.2步,属性元组均已排序,使用以下特征来表示一个属性:

不同值个数(DistinctTuples,DT):是指属性中不同值个数,

属性名(AttributeName,N):属性的名称,

平均值(Average,A):是指数值型属性的平均值,字符型该属性记为0,

方差(Variance,V):是指数值型属性的方差,字符型该属性记为0,

属性值平均长度(Average Length,AL):是指字符型属性的平均长度,数值型属性该特征记为0,

中位数(Median,M):是指属性的中位数;

第2.2、对属性的统计特征进行归一化,主要考虑以下两方面:

第2.2.1、对于数值型属性而言,属性值取值范围会影响属性对之间的比较,将每对属性都除以被参照属性的取值范围来消除这种偏差;

第2.2.2、对于字符型属性而言,属性值的长度也会影响属性对之间的比较,将每对属性都除以被参照属性的属性值平均长度来消除这种偏差;

第2.3、字符串之间的距离使用编辑距离来度量,FastMap算法能够将特征中的字符串类型转换成向量,并保持原有的相似度,这样得到一个能够代表原属性的特征向量,记作featureX,其中X表示属性名;

定义3:属性对之间的距离定义为特征向量的欧氏距离:

dist(A,B)=||featureA-featureB||

其中A,B是包含依赖属性集合中的属性,featureX是一个特征向量,是属性X的特征表示;

第2.4、计算所有满足包含依赖的属性对之间的距离,并按属性对之间的距离从小到大对属性对排序,将属性对之间的距离有明显变化的地方设为阈值R;在所有包含依赖属性对中,若其中一个属性是主键,且该属性对之间的距离小于R,则认为它们是一对主外键关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510616597.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top