[发明专利]实现数据表拼接及自动训练机器学习模型的方法和系统有效
申请号: | 201811619007.6 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109697066B | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 乔胜传;王敏;桂权力;王嘉磊;孙越;娄辰 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F16/2455;G06F16/22;G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 徐璐璐;曾世骁 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实现 数据表 拼接 自动 训练 机器 学习 模型 方法 系统 | ||
1.一种实现数据表拼接的方法,包括:
根据用户在屏幕中执行的用于基于关联字段建立数据表间的关联关系的输入操作,在任意两个数据表之间建立基于关联字段的关联关系,其中,基于关联字段的关联关系是指基于两个数据表中对应的含义相同的关联字段而建立的对应关系;
根据用户在屏幕中执行的用于指定数据表内的字段与主键之间的关联关系和/或字段的类型的输入操作,设置数据表内的字段与主键之间的关联关系和/或字段的类型,其中,数据表内的字段与主键之间的关联关系是指一对一、一对多、多对一或多对多,字段的类型是指单维度类别型字段、多维度类别型字段、单维度数值型字段或多维度数值型字段,其中,若字段为单维度类别型字段,则该字段与主键之间的关联关系为一对多,若字段为多维度类别型字段,则该字段与主键之间的关联关系为多对多,若字段为单维度数值型字段,则该字段与主键之间的关联关系为一对一,若字段为多维度数值型字段,则该字段与主键之间的关联关系为多对一;以及
基于数据表内的字段与主键之间的关联关系和/或字段的类型,在彼此之间通过基于关联字段的关联关系而关联起来的至少两个数据表之间拼接出对应的一个关联数据表;
其中,基于数据表内的字段与主键之间的关联关系和/或字段的类型在彼此之间通过基于关联字段的关联关系而关联起来的至少两个数据表之间拼接出对应的一个关联数据表的步骤包括:
针对所述关联起来的至少两个数据表,将具有基于关联字段的关联关系的两个数据表中的一个数据表拼接到另外一个数据表,直至拼接到指定数据表,
其中,当所述至少两个数据表中的两个数据表的待拼接的数据表与拼接到的数据表之间的关联字段间的对应关系为一对多时,基于所述待拼接的数据表内的字段与主键之间的关联关系和/或字段的类型,在所述待拼接的数据表中添加用于对特定字段的字段值进行统计的统计字段,并将添加了统计字段的所述待拼接的数据表基于所述关联字段拼接到所述拼接到的数据表,其中,所述特定字段包括以下字段中的至少一个:所述待拼接的数据表中除主键、所述待拼接的数据表与所述拼接到的数据表之间的关联字段、时间字段之外的数值型字段;以及所述拼接到的数据表中除主键、所述待拼接的数据表与所述拼接到的数据表之间的关联字段、时间字段之外的数值型字段;
其中,基于所述待拼接的数据表内的字段与主键之间的关联关系和/或字段的类型在所述待拼接的数据表中添加用于对特定字段的字段值进行统计的统计字段的步骤包括:
分别将所述待拼接的数据表内的与主键之间的关联关系为多对多的字段和/或多维度类别型字段中的每一个字段作为统计基准字段,并生成以所述统计基准字段为主键的附加表,其中,所述附加表中的每条数据记录除主键之外的字段基于相应主键的每个维度在所述待拼接的数据表和/或所述拼接到的数据表中对应的所述特定字段的统计结果得到;以及
基于所述附加表的主键,将所述附加表拼接到所述待拼接的数据表。
2.如权利要求1所述的方法,其中,当所述至少两个数据表中的另外两个数据表的待拼接的数据表与拼接到的数据表之间的关联字段间的对应关系为一对一时,直接基于所述关联字段将所述待拼接的数据表拼接到所述拼接到的数据表。
3.如权利要求1所述的方法,其中,基于所述待拼接的数据表内的字段与主键之间的关联关系和/或字段的类型在所述待拼接的数据表中添加用于对特定字段的字段值进行统计的统计字段的步骤还包括:
分别将所述待拼接的数据表内的与主键之间的关联关系为一对多的字段和/或单维度类别型字段中的每一个字段作为统计基准字段,并分别针对所述统计基准字段的每个字段值,将所述每个字段值所对应的数据记录中的所述特定字段的字段值的统计结果,作为所述每个字段值所在的数据记录的相应统计字段的字段值。
4.如权利要求1所述的方法,其中,基于所述待拼接的数据表内的字段与主键之间的关联关系和/或字段的类型在所述待拼接的数据表中添加用于对特定字段的字段值进行统计的统计字段的步骤还包括:
分别将所述待拼接的数据表内的与主键之间的关联关系为多对一的字段和/或多维度数值型字段中的每一个字段作为所述特定字段,并将所述特定字段内的每个字段值所包括的各个维度的数值的统计结果,作为所述每个字段值所在的数据记录的相应统计字段的字段值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811619007.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种嵌入式车载系统的可视化开发方法
- 下一篇:数据打包方法及装置