[发明专利]基于最近邻搜索的关系表集合外键识别方法有效
申请号: | 201510616597.7 | 申请日: | 2015-09-22 |
公开(公告)号: | CN105095522B | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 袁晓洁;蔡祥睿;柴娅乐;刘云鹏;温延龙 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 近邻 搜索 关系 集合 识别 方法 | ||
1.一种基于最近邻搜索的关系表集合外键识别方法,其特征在于该方法包括:
第1、识别关系表集合中的包含依赖
定义1:如果A,B满足如下两个条件,则属性对(A,B)满足包含依赖,记作其中A表示依赖属性,B表示被参照属性:
(1)A,B有相同的属性个数;
(2)属性A中的元组包含在属性B中;
定义2:C,D分别为两个属性,包含系数定义如下:
在实际应用中,如果C和D满足σ(C,D)≥θ,其中θ是自定义的,就认为C和D满足包含依赖;
第1.1、使用并行算法识别关系表集合中的单列包含依赖,其具体步骤包括:
第1.1.1、查询属性中的所有元组,去除属性中的重复元组并对元组按从小到大进行排序;
第1.1.2、假设属性集合为{A1,A2,…,An},初始时,属性Ai能够参照的属性为{A1,A2,…,Ai-1,Ai+1,…,An},i∈{1,2,3,…,n},各属性有一个指向最小元组的指针;
第1.1.3、通过移动指针并行地按序遍历第1.1.1步得到的属性元组,通过比较元组值是否存在于某个属性中,确定属性之间的参照与被参照关系,当元组a∈Ai,则能够确定从Ai的候选属性集合中删除Aj,按此方法遍历所有元组值,如果Ai的候选属性集合中仍有属性,即为包含Ai的属性;
第1.2、识别关系表集合中的多列包含依赖,其具体步骤包括:
第1.2.1、候选属性对集合剪枝
包含依赖的投影包含性质:
若m个属性满足包含依赖,则其中任意m-1个属性必定也对应满足包含依赖,即其中ti∈{1,2,…,m};
该性质能够用来对多列包含依赖候选集剪枝,假设现有A、B、C、D、E、F六个属性,A、B、C在关系表1中,D、E、F在关系表2中,通过第1.1步得到则能够推出即这五组属性对不用再比较;所述外键识别方法的属性对生成策略是自底向上的生成候选属性对,利用较少属性的候选对判断结果,对更多属性的属性对进行剪枝;
第1.2.2、查询候选属性组合的所有元组,去除重复元组并按从小到大进行排序,排序方法:先按组合中第一属性的大小排序,若第一属性值相等,按第二属性的大小排序,依此类推;
第1.2.3、使用与第1.1.2步和第1.1.3步类似的方法,并行遍历第1.2.2步得到的属性元组,确定属性组合之间的包含关系;
第2、从包含依赖集合中筛选出外键
鉴于主键、外键属性本质上的语义相关性,通过查找属性集合中主键的最近邻找出对应的外键;
第2.1、以属性的统计特征来表示一个属性,经过第1.1.1步以及第1.2.2步,属性元组均已排序,使用以下特征来表示一个属性:
不同值个数(DistinctTuples,DT):是指属性中不同值个数,
属性名(AttributeName,N):属性的名称,
平均值(Average,A):是指数值型属性的平均值,字符型该属性记为0,
方差(Variance,V):是指数值型属性的方差,字符型该属性记为0,
属性值平均长度(Average Length,AL):是指字符型属性的平均长度,数值型属性该特征记为0,
中位数(Median,M):是指属性的中位数;
第2.2、对属性的统计特征进行归一化,主要考虑以下两方面:
第2.2.1、对于数值型属性而言,属性值取值范围会影响属性对之间的比较,将每对属性都除以被参照属性的取值范围来消除这种偏差;
第2.2.2、对于字符型属性而言,属性值的长度也会影响属性对之间的比较,将每对属性都除以被参照属性的属性值平均长度来消除这种偏差;
第2.3、字符串之间的距离使用编辑距离来度量,FastMap算法能够将特征中的字符串类型转换成向量,并保持原有的相似度,这样得到一个能够代表原属性的特征向量,记作featureX,其中X表示属性名;
定义3:属性对之间的距离定义为特征向量的欧氏距离:
dist(A,B)=||featureA-featureB||
其中A,B是包含依赖属性集合中的属性,featureX是一个特征向量,是属性X的特征表示;
第2.4、计算所有满足包含依赖的属性对之间的距离,并按属性对之间的距离从小到大对属性对排序,将属性对之间的距离有明显变化的地方设为阈值R;在所有包含依赖属性对中,若其中一个属性是主键,且该属性对之间的距离小于R,则认为它们是一对主外键关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510616597.7/1.html,转载请声明来源钻瓜专利网。