[发明专利]数据表相似度确定方法及装置有效
申请号: | 202011345577.8 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112597149B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 张志强 | 申请(专利权)人: | 贝壳技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李文清 |
地址: | 300457 天津市滨海新区经济技术开发*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据表 相似 确定 方法 装置 | ||
1.一种数据表相似度确定方法,其特征在于,包括:
判断数据仓库中任意两个数据表中是否存在具有关联关系的字段;所述关联关系包括直接关联关系和间接关联关系,所述直接关联关系是指两个字段中一个字段是直接由另一个字段生成的,所述间接关联关系是指两个字段中一个字段是通过调用另一个字段进行运算得到;
若所述任意两个数据表中存在具有关联关系的字段,则确定所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度;
基于所述字段相似度以及所述任意两个数据表中的字段数量,确定所述任意两个数据表的表相似度。
2.根据权利要求1所述的数据表相似度确定方法,其特征在于,所述基于所述字段相似度以及所述任意两个数据表中的字段数量,确定所述任意两个数据表的表相似度,具体包括:
对所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度进行求和,得到第一求和结果;
将所述第一求和结果与所述任意两个数据表中的字段数量的比值作为所述任意两个数据表的表相似度。
3.根据权利要求1所述的数据表相似度确定方法,其特征在于,还包括:
若所述任意两个数据表中不存在具有关联关系的字段,则确定所述数据仓库中与所述任意两个数据表对应的至少一个关联数据表,所述关联数据表中存在与所述任意两个数据表中的字段均具有关联关系的至少一个关联字段;
基于任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任意两个数据表的表相似度。
4.根据权利要求3所述的数据表相似度确定方法,其特征在于,所述基于任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任意两个数据表的表相似度,具体包括:
基于所述任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任一关联数据表对应的表相似度项;
将所述至少一个关联数据表对应的表相似度项之和作为所述任意两个数据表的表相似度。
5.根据权利要求4所述的数据表相似度确定方法,其特征在于,所述基于所述任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,以及所述任一关联数据表中的关联字段的数量,确定所述任一关联数据表对应的表相似度项,具体包括:
基于所述任一关联数据表中的任一关联字段与所述任意两个数据表中对应的字段之间的字段相似度,对所述任一关联数据表中的至少一个关联字段与所述任意两个数据表中对应的字段之间的字段相似度进行求和,得到第二求和结果;
基于所述第二求和结果与所述任一关联数据表中的关联字段的数量之间的比值,确定所述任一关联数据表对应的表相似度项。
6.根据权利要求1-5中任一项所述的数据表相似度确定方法,其特征在于,还包括:
基于所述任意两个数据表的表相似度,确定所述数据仓库的整体表相似度。
7.根据权利要求1-5中任一项所述的数据表相似度确定方法,其特征在于,所述确定所述任意两个数据表中具有关联关系的至少一对字段之间的字段相似度,之前还包括:
基于词法解析方法以及语法解析方法,确定所述任意两个数据表中具有关联关系的至少一对字段以及对应的关联关系类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳技术有限公司,未经贝壳技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011345577.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便携式医疗设备维护装置
- 下一篇:一种基于全自动控制的管道检测装置