[发明专利]执行机器学习流程的方法及系统有效
申请号: | 201910283460.2 | 申请日: | 2016-12-06 |
公开(公告)号: | CN109993316B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 栾淑君;杨慧斌;孙迪 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F3/0484;G06F16/904 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 曾世骁;张川绪 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 执行 机器 学习 流程 方法 系统 | ||
提供了一种执行机器学习流程的方法及系统,所述方法包括:(A)向用户展示用于配置机器学习任务的图形界面并检测用户通过图形界面执行的输入操作,其中,机器学习任务用于执行机器学习流程所包括的数据处理;(B)根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务;以及(C)在不执行配置的所述机器学习任务的情况下,推断与所述机器学习任务有关的数据属性信息,其中,数据属性信息包括数据属性字段的名称和/或数据类型。相应地,能够花费较少资源和时间而有效地得到机器学习流程中各个阶段的数据属性信息,从而改善机器学习工具的可操作性。
本申请是申请日为2016年12月6日、申请号为201611113470.4、题为“执行机器学习流程的方法及系统”的专利申请的分案申请。
技术领域
本发明总体说来涉及人工智能领域,更具体地说,涉及一种执行机器学习流程的方法及系统。
背景技术
随着海量数据的出现,人工智能技术得到了迅速发展,其中,机器学习技术普遍被用于从海量的数据记录(例如,金融数据、互联网数据等)中挖掘出有益的价值,
然而,人工智能技术应用的一大难题在于缺少有效易用的机器学习工具,很多现有的机器学习平台都仅面向精通机器学习技术的使用者,并且,由于机器学习往往所针对的是海量复杂数据和复杂数据运算,因此,即便是精通机器学习技术的使用者也难以有效地操作目前的机器学习工具。实际上,要想培养出精通机器学习的技术专家,需要花费大量的时间和精力,这使得人工智能技术的应用存在较高的人才门槛。另一方面,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等都有关系,例如,在确定特征提取方式的过程中,往往不仅需要掌握机器学习的技术知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难仅依靠技术专家来达到满意的机器学习效果。可以看出,机器学习工具需要在操作性上有所改进,以帮助不同用户更好地执行机器学习流程。
作为示例,Azure Machine Learning(简称“AML”)是微软在其公有云Azure上推出的基于Web使用的一项机器学习服务,该产品的目标是简化使用机器学习的过程,以便于开发人员、业务分析师和数据科学家进行广泛、便捷地应用。
在AML中,用户可通过DAG(有向无环图)来完成机器学习流程中各个机器学习任务(例如,数据导入、数据格式转换、数据变换、特征抽取、模型训练等)的配置,其中,在用户选择运行DAG中的特定顶点之后,该顶点所代表的机器学习任务将被执行,并且,作为执行结果而得到的数据的字段名称被显示在屏幕上。
具体说来,参照图1A,在AML中建立的机器学习流程可包括诸如成人调查收入表的导入(Adult Census Income Binary)、选择数据集中的列(Select Columns in Dataset)和清理丢失数据(Clean Missing Data)等机器学习任务,其中,在完成了对“选择数据集中的列”的配置之后,可开始配置下游机器学习任务“清理丢失数据”。
然而,如图1B中所示,由于之前的“选择数据集中的列”这一任务没有执行,所以无法按照字段名称来配置“清理丢失数据”,相应地,在屏幕上显示了提醒消息“将在执行实验之后启用基于名称的列选择(Name-based column selection will be enabled afterrunning the experiment)”。
在图1C中,可以看出,通过点击屏幕下方的“RUN”而实际执行了机器学习任务“选择数据集中的列”。相应地,在图1D中,下游机器学习任务“清理丢失数据”变得能够基于名称来进行相应的配置。
可以看出,在AML中,在配置机器学习流程的过程中,用户无法预先了解到任何关于经过各个机器学习任务处理后所得到的数据字段的信息,只有在相应机器学习任务被实际执行之后,才能知晓结果数据的字段名称。然而,由于机器学习过程常常涉及海量数据,执行机器学习任务将花费大量的时间和计算资源,这使得无法及时有效地获取或利用各阶段的数据属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910283460.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法、装置及电子设备
- 下一篇:一种计算机机房运维管理系统及方法