[发明专利]实现数据表拼接及自动训练机器学习模型的方法和系统有效
申请号: | 201811619704.1 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109739855B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 白羽萌;许江;谷瑞;白杨 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/242 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 徐璐璐;郭鸿禧 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实现 数据表 拼接 自动 训练 机器 学习 模型 方法 系统 | ||
提供了一种实现数据表拼接及自动训练机器学习模型的方法和系统。所述实现数据表拼接的方法包括:根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;以及分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
技术领域
本发明总体说来涉及数据处理领域,更具体地讲,涉及一种实现数据表拼接的方法及系统、自动训练机器学习模型的方法及系统。
背景技术
随着各行业海量数据的出现,需要在越来越多的场景下对数据进行各种处理,例如,数据表拼接等处理。
然而,现阶段很少有工具化的拼表方式,通常需要程序员通过编写程序代码来实现数据表的快速拼接,即,需要掌握专门的编程语言以编写出用于拼表的程序代码,例如,使用SQL(Structured Query Language,结构化查询语言)语句通过编写程序的方式来实现数据表拼接,这就要求使用者掌握SQL语法,学习成本较高,提高了数据应用的技术门槛,例如,普通业务人员(例如,那些无法熟练编程的人员)就很难便捷高效地对数据表进行拼接。
发明内容
本发明的示例性实施例在于提供一种实现数据表拼接的方法和系统,以解决现有技术存在的不能便捷高效地实现数据表的拼接的问题。此外,本发明的示例性实施例还提供一种自动训练机器学习模型的方法和系统,以解决现有技术存在的无法有效地从数据拼接开始即自动化地执行机器学习的问题。
根据本发明的示例性实施例,提供一种实现数据表拼接的方法,包括:根据用户在屏幕中执行的输入操作,在任意两个数据表之间建立主外键关联关系;针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案;以及分别按照生成的每一个拼接方案,在所述关联起来的至少两个数据表之间拼接出对应的一个关联数据表。
可选地,针对彼此之间通过主外键关联关系而关联起来的至少两个数据表,生成至少一个拼接方案的步骤包括:获取用户针对所述关联起来的至少两个数据表设置的拼接规则项;以及针对所述关联起来的至少两个数据表,根据获取的拼接规则项,生成所述至少一个拼接方案。
可选地,所述拼接规则项包括以下项之中的至少一项:拼接终点设置项,用于指定所述关联起来的至少两个数据表之中的一个数据表作为拼接终点,使得在生成的每个拼接方案中,最终拼接到指定的数据表;拼接路径长度限制项,用于限定最大拼接次数,使得在生成的每个拼接方案中,依次拼接数据表的次数小于或等于限定的最大拼接次数;以及拼接方式设置项,用于指定将任意两个具有主外键关联关系的数据表中的从表拼接到主表的拼接方式。
可选地,拼接方式设置项包括以下项之中的至少一项:数据记录过滤设置项,用于指定将所述从表中用户指定字段的字段值不符合用户指定要求的数据记录过滤后拼接到所述主表的拼接方式,或者,指定仅将所述从表中用户指定字段的字段值符合用户指定要求的数据记录拼接到所述主表的拼接方式;字段过滤设置项,用于指定仅将所述从表中的用户指定字段拼接到所述主表的拼接方式,或者,指定将所述从表中的用户指定字段过滤后拼接到所述主表的拼接方式;聚合处理设置项,用于指定对所述从表中用户指定字段的字段值进行用户指定的聚合处理,并将处理后得到的结果拼接到所述主表的拼接方式;以及离散处理设置项,用于指定对所述从表中用户指定字段的字段值进行用户指定的离散化处理,并将处理后得到的结果拼接到所述主表的拼接方式。
可选地,所述聚合处理包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。
可选地,所述至少一个拼接方案包括:基于所述关联起来的至少两个数据表之间的主外键关联关系能够最终拼接到指定的数据表或不作为其他数据表的从表的数据表的所有可能拼接方案之中,不被其他可能拼接方案完全覆盖的可能拼接方案,其中,在所有可能拼接方案中,具有主外键关联关系的两个数据表中的从表被拼接到主表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811619704.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据存储方法及装置
- 下一篇:用于建立数据表之间的关系的方法及系统