[发明专利]数据表主键关联方法、装置、计算机设备及可读存储介质有效
申请号: | 202111023802.0 | 申请日: | 2021-09-02 |
公开(公告)号: | CN113468186B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 姚佳;蒋静文;刘忠禹;张伟 | 申请(专利权)人: | 四川大学华西医院 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 张欣欣 |
地址: | 610044 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据表 主键 关联 方法 装置 计算机 设备 可读 存储 介质 | ||
1.一种数据表主键关联方法,其特征在于,所述方法包括:
根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名;
根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中;
遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点;
查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系,其中,所述距离为1/(基础节点与基础节点之间的关联分数);
所述将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中的步骤之后,所述方法还包括:
遍历每一基础节点的数据字典,删除多个节点数据中具有相同数据表名的节点数据,以得到节点数据集;
从所述节点数据集中保留出现频次最高的节点数据,并将所述出现频次最高的节点数据存储在基础节点的数据字典中。
2.根据权利要求1所述的方法,其特征在于,所述确定各基础节点与其它数据表的全部节点之间的关联网络步骤,包括:
计算各基础节点与其它数据表的全部节点的关联分数;
根据所述关联分数生成不同数据表基础节点之间的关联网络;
所述根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中的步骤,包括:
根据所述关联网络、所述基础节点与多个关联节点之间的关联分数及预设规则,将每个基础节点的目标关联节点的节点数据存储在对应的基础节点的数据字典中。
3.根据权利要求2所述的方法,其特征在于,所述根据所述关联分数生成不同数据表基础节点之间的关联网络的步骤,包括:
比较两两基础节点的关联分数是否大于或等于关联分数阈值;
若所述两两基础节点的关联分数大于或等于所述关联分数阈值,则保留所述两两基础节点之间的关联关系;
若所述两两基础节点的关联分数小于所述关联分数阈值,则删除所述两两基础节点之间的关联关系;
根据全部保留的两两节点之间的关联关系,生成不同数据表基础节点之间的关联网络。
4.根据权利要求2所述的方法,其特征在于,所述计算各基础节点与其它数据表的全部节点的关联分数的步骤,包括:
计算基础节点与其它节点的多个关联指标,其中,所述其它节点为与所述基础节点所属数据表不同的其它数据表中的节点,所述多个关联指标包括字段的最长连续公共子序列比、字段所属表是否同系统、字段所属表名的最长连续公共子序列比、字段注释的加权编辑距离比、两个字段数据的长度分布一致性、两个字段数据的前5字符分布一致性、两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值,其中,所述字段数据的唯一值占比为所述字段数据的数据条数与所述字段数据经过去重处理后的数据条数的比值,所述字段数据去重后的交集比为两个去重后的字段数据的数据交集比长度与两个去重后字段数据中最长的去重后字段数据的数据长度的比值;
对多个关联指标进行归一化处理,以得到对应各关联指标的指标计算值;
根据各所述指标计算值、预设的指标系数以及各关联指标的自适应权重,计算所述基础节点与所述其它节点的关联分数。
5.根据权利要求4所述的方法,其特征在于,所述各关联指标的自适应权重的获取步骤,包括:
根据两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值以及对应的分布系数,计算目标分布系数;
计算各关联指标与所述目标分布系数的离散交叉熵,作为对应各关联指标的自适应权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学华西医院,未经四川大学华西医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111023802.0/1.html,转载请声明来源钻瓜专利网。