[发明专利]一种机器学习的优化方法、系统、计算机存储介质和电子设备在审
申请号: | 201810759470.4 | 申请日: | 2018-07-11 |
公开(公告)号: | CN109102078A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 张昊;孙鹏飞 | 申请(专利权)人: | 北京墨丘科技有限公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00;G06N3/04 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 陈超 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学习数据 计算机存储介质 机器学习模型 电子设备 机器学习 选取规则 优化数据 特征图 优化 | ||
本发明公开了一种机器学习的优化方法、系统、计算机存储介质和电子设备,其中,该获取方法包括:获取至少一个学习数据;识别所述学习数据,得到识别结果,所述识别结果包括:所述学习数据的特征图和/或所述学习数据所属的类别;在所述识别结果满足预先设定的选取规则时,将所述识别结果对应的所述学习数据作为所述机器学习模型的优化数据。本发明能够有针对性的获取到对机器学习模型性能有明显提升的数据。
技术领域
本发明属于人工智能技术领域,具体涉及一种机器学习的优化方法、系统、计算机存储介质和电子设备。
背景技术
机器学习是人工智能的一个重要分支,近几年,由于人工智能的迅速发展,使得机器学习也需要不断提高其学习能力。机器学习是指能够通过不断使用新的训练数据对其进行学习训练,从而不断提升其性能。例如,神经网络模型的性能能够随着训练数据数量的增多而提升,因此,基于足够数量的训练数据,神经网络模型就能够得到期望性能的提升。这是因为训练数据足够多,使得学习训练时就可以遍历到数据的绝大部分特征。
然而,现实中某些应用场景下,训练数据并不是很充足,就导致现有的训练数据往往存在覆盖不到的特征,也即训练数据的采集不能保证所有的特征被充分覆盖。因此,如何使得训练数据的采集能够覆盖到所有的特征是一个亟待解决的问题。
发明内容
(一)发明目的
本发明的目的是提供一种对机器学习模型性能提升大的一种机器学习的优化方法、系统、计算机存储介质和电子设备。
(二)技术方案
为解决上述问题,本发明的第一方面提供了一种机器学习的优化方法,包括:获取至少一个学习数据;识别所述学习数据,得到识别结果,所述识别结果包括:所述学习数据的特征图和/或所述学习数据所属的类别;在所述识别结果满足预先设定的选取规则时,将所述识别结果对应的所述学习数据作为所述机器学习模型的优化数据。
可选地,所述预先设定的选取规则是基于所述特征图的识别度和/或所述学习数据所属的类别的数量设定。
可选地,所述特征图的识别度包括:低识别度和/或高识别度。
可选地,所述特征图的识别度采用如下方法获取:将所述至少一个机器学习数据输入预先训练好的机器学习模型;获取所述机器学习模型对至少一个所述机器学习数据提取特征得到的特征图;基于所述特征图在所述机器学习模型的各个类别下的识别概率,计算所述特征图的识别度。
可选地,所述特征图的识别度是对所述特征图在所有类别下的识别概率求标准偏差。
可选地,若某一特征图的识别度低于第一识别度阈值,则该特征图为低识别度的特征图;和/或,若某一特征图的识别度高于第二识别度阈值,则该特征图为高识别度的特征图。
可选地,若所述学习数据所属的类别的数量小于预定数量,则满足预先设定的选取规则。
可选地,还包括:统计至少一个所述学习数据所属的类别的数量;其中,所述统计至少一个所述学习数据所属的类别的数量,包括:将已训练学习数据输入预先训练好的机器学习模型;获取所述机器学习模型对所述已训练学习数据提取特征得到的特征图;统计每一特征图取到的类别;基于每一特征图取到的类别,计算各个类别下的特征图的数量。
可选地,还包括:若新的学习数据所属的类别为小于预定数量的类别,则满足预先设定的选取规则。
根据本发明的另一个方面,还提供一种机器学习的优化系统,包括:获取模块,用于获取至少一个学习数据;识别模块,用于识别所述学习数据,得到识别结果,所述识别结果包括:所述学习数据的特征图和/或所述学习数据所属的类别,以及在所述识别结果满足预先设定的选取规则时,将所述识别结果对应的所述学习数据作为所述机器学习模型的优化数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京墨丘科技有限公司,未经北京墨丘科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810759470.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在线高维不平衡流数据的学习方法
- 下一篇:基于值导数GRU的入侵检测算法