[发明专利]实现数据表拼接及自动训练机器学习模型的方法和系统有效
申请号: | 201811619007.6 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109697066B | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 乔胜传;王敏;桂权力;王嘉磊;孙越;娄辰 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F16/2455;G06F16/22;G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 徐璐璐;曾世骁 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实现 数据表 拼接 自动 训练 机器 学习 模型 方法 系统 | ||
提供了一种实现数据表拼接及自动训练机器学习模型的方法和系统。所述实现数据表拼接的方法包括:根据用户在屏幕中执行的用于基于关联字段建立数据表间的关联关系的输入操作,在任意两个数据表之间建立基于关联字段的关联关系;根据用户在屏幕中执行的用于指定数据表内的字段与主键之间的关联关系和/或字段的类型的输入操作,设置数据表内的字段与主键之间的关联关系和/或字段的类型;以及基于数据表内的字段与主键之间的关联关系和/或字段的类型,在彼此之间通过基于关联字段的关联关系而关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
技术领域
本发明总体说来涉及数据处理领域,更具体地讲,涉及一种实现数据表拼接的方法及系统、自动训练机器学习模型的方法及系统。
背景技术
随着各行业海量数据的出现,需要在越来越多的场景下对数据进行各种处理,例如,数据表拼接等处理。
然而,现阶段很少有工具化的拼表方式,通常需要程序员通过编写程序代码来实现数据表的快速拼接,为此,程序员需要掌握专门的编程语言以编写出用于拼表的程序代码,例如,使用SQL(Structured Query Language,结构化查询语言)语句通过编写程序的方式来实现数据表拼接,学习成本较高,提高了数据应用的技术门槛,例如,普通业务人员(例如,那些无法熟练编程的人员)就很难便捷高效地对数据表进行拼接。
发明内容
本发明的示例性实施例在于提供一种实现数据表拼接的方法和系统,以解决现有技术存在的不能便捷高效地实现数据表的拼接的问题。此外,本发明的示例性实施例还提供一种自动训练机器学习模型的方法和系统,以解决现有技术存在的无法有效地从数据拼接开始即自动化地执行机器学习的问题。
根据本发明的示例性实施例,提供一种实现数据表拼接的方法,包括:根据用户在屏幕中执行的用于基于关联字段建立数据表间的关联关系的输入操作,在任意两个数据表之间建立基于关联字段的关联关系;根据用户在屏幕中执行的用于指定数据表内的字段与主键之间的关联关系和/或字段的类型的输入操作,设置数据表内的字段与主键之间的关联关系和/或字段的类型;以及基于数据表内的字段与主键之间的关联关系和/或字段的类型,在彼此之间通过基于关联字段的关联关系而关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
可选地,基于数据表内的字段与主键之间的关联关系和/或字段的类型在彼此之间通过基于关联字段的关联关系而关联起来的至少两个数据表之间拼接出对应的一个关联数据表的步骤包括:针对所述关联起来的至少两个数据表,将具有基于关联字段的关联关系的两个数据表中的一个数据表拼接到另外一个数据表,直至拼接到指定数据表,其中,当所述两个数据表中的待拼接的数据表与拼接到的数据表之间的关联字段间的对应关系为一对一时,直接基于所述关联字段将所述待拼接的数据表拼接到所述拼接到的数据表,其中,当所述两个数据表中的待拼接的数据表与拼接到的数据表之间的关联字段间的对应关系为一对多时,基于所述待拼接的数据表内的字段与主键之间的关联关系和/或字段的类型,在所述待拼接的数据表中添加用于对特定字段的字段值进行统计的统计字段,并将添加了统计字段的所述待拼接的数据表基于所述关联字段拼接到所述拼接到的数据表。
可选地,所述特定字段包括以下字段中的至少一个:所述待拼接的数据表中除主键、所述待拼接的数据表与所述拼接到的数据表之间的关联字段、时间字段之外的数值型字段;以及所述拼接到的数据表中除主键、所述待拼接的数据表与所述拼接到的数据表之间的关联字段、时间字段之外的数值型字段。
可选地,基于所述待拼接的数据表内的字段与主键之间的关联关系和/或字段的类型在所述待拼接的数据表中添加用于对特定字段的字段值进行统计的统计字段的步骤包括:分别将所述待拼接的数据表中与主键之间的关联关系为一对多的字段和/或单维度类别型字段中的每一个字段作为统计基准字段,并分别针对所述统计基准字段的每个字段值,将所述每个字段值所对应的数据记录中的所述特定字段的字段值的统计结果,作为所述每个字段值所在的数据记录的相应统计字段的字段值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811619007.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种嵌入式车载系统的可视化开发方法
- 下一篇:数据打包方法及装置