[发明专利]一种机器学习方法、装置、设备及系统在审
申请号: | 201811617557.4 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109829375A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 郑海刚;吕旭涛;王孝宇 | 申请(专利权)人: | 深圳云天励飞技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518000 广东省深圳市龙岗区园山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 测试数据 训练模型 设备及系统 处理模块 机器学习 计算模块 数据关联 训练模块 预设条件 数据集中数据 测试数据集 存储模块 模型训练 目标操作 特征输入 特征提取 循环执行 数据集 评估 预设 申请 存储 | ||
本申请公开了一种机器学习方法、装置、设备及系统,系统包括:处理模块,用于循环执行目标操作,直至测试数据集中数据关联的测试结果满足预设条件;处理模块,包括:标注模块、训练模块及计算模块;存储模块,用于存储获取到的数据集以及测试数据集;标注模块,用于如果数据集中数据未被标注,则对数据进行标注;训练模块,用于在将标注后的大于或等于第一预设阈值的数据进行特征提取之后,将提取出的特征输入到预训练模型,获得训练好的训练模型;计算模块,用于将测试数据集中数据输入到训练好的训练模型,获得测试数据集中数据关联的测试结果,对测试结果进行评估,以评估出测试结果是否满足预设条件。采用本申请,可提高模型训练速度。
技术领域
本申请涉及机器学习技术领域,尤其涉及一种机器学习方法、装置、设备及系统。
背景技术
随着数据规模、计算能力、存储能力的增长,人工智能发展迅猛,被广泛应用于各种领域以挖掘数据的价值。而在快速发展的背后是大量的人力投入,业内流传的“人工智能有多少人工就有多少智能”,指的就是在人工智能技术与具体的业务结合之前需要投入大量的人力,首先需要大规模的数据集,然后需要大量的人力标注数据,标注之后需要算法工程师花费大量的时间编写代码进行训练及调参,最后输出一个模型。一次完整的机器学习过程包含数据集标注、数据集处理、特征处理、模型训练、模型评估以及模型部署等。为降低机器学习门槛,提高模型训练效率,在机器学习框架之上如tensorflow之上可搭建机器学习平台,提供友好的交互方式,支持流程化作业,如第四范式的先知平台,通过拖拉组件的方式生成训练的有向无环图。
但在实际生产环境当中,一个能够产品化的模型(主要是无监督学习)往往需要多轮训练迭代,需要采集然后标注信息的数据集再次训练以提升模型精度,即是一个闭环的过程,若每次迭代都从将无标签的原始数据导入标注系统,再从标注系统导出,再导入机器学习系统,操作复杂,且大规模数据(TB级)在不同的系统间传输来传输去,传输速度慢,易容易出现网络中断,在不同系统存储多份相同数据,存在冗余,浪费存储空间,当前标注都是人工标注,费时费力,效率低。
发明内容
本申请提供一种机器学习方法、装置、设备及系统,可实现标注模块和训练模块共享存储,一方面,通过共享该数据,减少了数据冗余,极大地提高了存储空间的利用率,另一方面,减少了大量的数据集中数据需要在不同系统(现有技术中空间上相距较远的、分别独立的标注系统和训练系统)间传输,减少了数据传输时延,提高了模型训练的速度,此外,还通过机器对未标注的数据集中数据进行自动化标注,提高了数据集中数据的标注速度。
第一方面,本申请提供了一种机器学习系统,该系统包括:
处理模块,用于循环执行目标操作,直至测试数据集中数据关联的测试结果满足预设条件;所述处理模块,包括:标注模块、训练模块以及计算模块;
存储模块,用于存储获取到的数据集以及测试数据集;
所述标注模块,用于如果所述获取到的数据集中数据未被标注,则对所述数据集中数据进行标注;
所述训练模块,用于在将标注后的大于或等于第一预设阈值的数据进行筛选,将筛选出的数据进行特征提取之后,将提取出的特征输入到预训练模型,获得训练好的训练模型;所述特征用于对所述预训练模型进行训练;
所述计算模块,用于在将所述获取到的测试数据集中数据输入到所述训练好的训练模型,获得所述测试数据集中数据关联的测试结果之后,对所述测试数据集中数据关联的测试结果进行评估,以评估出所述测试数据集中数据关联的测试结果是否满足预设条件。
结合第一方面方法,在一些可选的实施例中,
所述判断所述数据集中数据是否被标注之后,
所述训练模块,还用于如果所述数据集中数据全都被标注,则对所述数据集中数据进行特征提取,将提取出的特征输入到预训练模型,获得训练好的训练模型;所述特征用于对所述预训练模型进行训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳云天励飞技术有限公司,未经深圳云天励飞技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811617557.4/2.html,转载请声明来源钻瓜专利网。