[发明专利]数据表分组方法及装置、可读存储介质、电子设备在审
申请号: | 202110852328.6 | 申请日: | 2021-07-27 |
公开(公告)号: | CN115687339A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 曾文杰 | 申请(专利权)人: | 京东科技控股股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据表 分组 方法 装置 可读 存储 介质 电子设备 | ||
1.一种数据表分组方法,其特征在于,所述方法包括:
获取与目标业务数据库对应的多个待分组业务数据表,并获取多个所述待分组业务数据表中的目标数据字段以及与所述目标数据字段对应的目标字段类型;
按照分组维度对所述目标数据字段进行分组得到字段分组结果,并根据所述字段分组结果生成聚类输入数据;其中,所述分组维度由所述目标数据字段以及所述目标字段类型确定;
对所述聚类输入数据进行聚类处理得到聚类结果,以根据所述聚类结果确定多个所述待分组业务数据表的分组结果。
2.根据权利要求1所述数据表分组方法,其特征在于,所述目标数据字段包括非关系字段;
所述按照分组维度对所述目标数据字段进行分组得到字段分组结果,包括:
过滤所述目标数据字段中存在的所述非关系字段得到关系字段,并按照分组维度对所述关系字段进行分组得到关系字段分组结果;
对所述待分组业务数据表中的所述关系字段分组结果进行统计得到分组统计结果,并基于所述分组统计结果,确定与所述待分组业务数据表对应的字段分组结果。
3.根据权利要求2所述数据表分组方法,其特征在于,所述根据所述字段分组结果生成聚类输入数据,包括:
计算多个所述待分组业务数据表中同一所述关系字段分组结果的个数得到个数计算结果,对所述个数计算结果进行降序排序得到个数排序结果;
基于所述个数排序结果,在所述关系字段分组结果中确定预设个高个数分组结果,并根据所述高个数分组结果生成聚类输入数据。
4.根据权利要求3所述的数据表分组方法,其特征在于,所述根据所述高个数分组结果生成聚类输入数据,包括:
根据所述高个数分组结果,生成与多个所述待分组业务数据表对应的多个字段行向量,并根据所述多个字段行向量生成聚类输入矩阵。
5.根据权利要求4所述的数据表分组方法,其特征在于,所述根据所述高个数分组结果,生成与多个所述待分组业务数据表对应的多个字段行向量,包括:
生成与所述高个数分组结果对应的初始字段行向量,并依次对所述待分组业务数据表中的所述关系字段分组结果和所述高个数分组结果进行判断;其中,所述初始行向量中的元素与所述高个数分组结果一一对应;
若存在与所述高个数分组结果一致的所述关系字段分组,在所述初始字段行向量中,确定与所述高个数分组结果对应的目标元素,并将所述目标元素的值替换为预设元素值,以生成与所述待分组业务数据表对应的字段行向量。
6.根据权利要求4所述的数据表分组方法,其特征在于,所述根据所述多个字段行向量生成聚类输入矩阵,包括:
根据所述多个字段行向量生成初始聚类输入矩阵,对所述初始聚类输入矩阵进行降维处理得到聚类输入矩阵。
7.根据权利要求1所述的数据表分组方法,其特征在于,所述方法还包括:
根据所述分组结果,确定属于同一个组的所述待分组业务数据表,若存在多个属于同一个组的所述待分组业务数据表,确定多个所述待分组业务数据表中所述目标数据字段的字段创建时间;
若存在多个与所述业务数据表对应的所述字段创建时间,对多个所述字段创建时间进行升序排序得到低字段创建时间,以确定所述低字段创建时间为所述待分组业务数据表的业务创建时间;
对同一个组的所述待分组业务数据表的所述业务创建时间进行升序排序得到升序排序结果,以根据所述升序排序结果确定所述待分组业务数据表之间的数据流向关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技控股股份有限公司,未经京东科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110852328.6/1.html,转载请声明来源钻瓜专利网。