[发明专利]确定数据表之间关联关系的方法、装置及设备在审
申请号: | 202010839661.9 | 申请日: | 2020-08-19 |
公开(公告)号: | CN112115138A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 姚均霖 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 马铁良 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 数据表 之间 关联 关系 方法 装置 设备 | ||
本公开提出了一种确定数据表之间关联关系的方法、装置及设备,包括:获取目标数据表集合中涉及的数据表对;其中,所述数据表对中包括第一数据表和第二数据表;获取用于关联所述第一数据表和所述第二数据表的拼接键字段对;其中,所述拼接键字段对中包括所述第一数据表的外键字段和所述第二数据表的主键字段;计算所述拼接键字段对的关联度,根据计算出的关联度确定数据表之间的关联关系。
技术领域
本发明涉及数据处理领域,更具体地,涉及一种确定数据表之间关联关系的方法、一种确定数据表之间关联关系的装置、一种包括至少一个计算装置和至少一个存储装置的设备、及一种计算机可读存储介质。
背景技术
随着各行业海量数据的出现,需要在越来越多的场景下对数据进行处理,例如先确定数据表之间的关联关系,以根据该关联关系对数据表进行拼接等。
相关技术中,均是由用户手动输入两张数据表之间的关联关系和该两张数据表的主外键信息,这种方式依赖于人为提供数据表的主外键信息及表关联关系,当用户无法获取或提供数据表的表关联关系和主外键信息时,无法对数据表进行拼接。
发明内容
本公开实施例的一个目的是提供一种确定数据表之间关联关系的新的技术方案。
获取目标数据表集合中涉及的数据表对;其中,所述数据表对中包括第一数据表和第二数据表;
获取用于关联所述第一数据表和所述第二数据表的拼接键字段对;其中,所述拼接键字段对中包括所述第一数据表的外键字段和所述第二数据表的主键字段;
计算所述拼接键字段对的关联度,根据计算出的关联度确定数据表之间的关联关系。
可选地,所述方法还包括:
在所述关联度满足设定条件的情况下,将所述第一数据表和所述第二数据表进行拼接。
可选地,所述方法还包括:
获取所述数据表集合的属性信息;
根据所述属性信息和预设的复杂度计算函数,获取所述数据表集合的计算复杂度;
比较所述计算复杂度和所述复杂度阈值,得到比较结果;
在所述比较结果表示所述计算复杂度小于或等于所述复杂度阈值的情况下,执行获取目标数据表集合中涉及的数据表对的步骤。
可选地,所述方法还包括:
在所述比较结果表示所述计算复杂度大于所述复杂度阈值的情况下,进行所述计算复杂度大于所述复杂度阈值的提示;或者,
在所述比较结果表示所述计算复杂度大于所述复杂度阈值的情况下,接收强制执行指令;响应于所述强制执行指令,执行获取目标数据表集合中涉及的数据表对的步骤;或者,
在所述比较结果表示所述计算复杂度大于所述复杂度阈值的情况下,提供选择复杂度计算函数的选择界面;将通过所述选择界面选择的复杂度计算函数作为所述预设的复杂度计算函数,并重新执行根据所述属性信息和预设的复杂度计算函数,获取所述数据表集合的计算复杂度的步骤。
可选地,所述属性信息至少包括所述数据表集合中数据表的总数,所述数据表集合中数据表的属性字段的最大个数,所述数据表集合中数据表的最大行数。
可选地,所述获取目标数据表集合中涉及的数据表对,包括:
依次将所述数据表集合中的每一数据表作为所述第一数据表;
针对所述第一数据表,依次从所述数据表集合中选取除所述数据表之外的其他数据表作为第二数据表,获得所述数据表对。
可选地,所述获取用于关联所述第一数据表和所述第二数据表的拼接键字段对,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010839661.9/2.html,转载请声明来源钻瓜专利网。