[发明专利]集成模型的失效判断方法及装置和计算机可读存储介质在审
申请号: | 201811272241.6 | 申请日: | 2018-10-26 |
公开(公告)号: | CN109492046A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 薛鹏;方娜;蔡振伟;曹友盛;刘强 | 申请(专利权)人: | 深圳力维智联技术有限公司 |
主分类号: | G06F16/26 | 分类号: | G06F16/26 |
代理公司: | 深圳市恒程创新知识产权代理有限公司 44542 | 代理人: | 赵爱蓉;邹新华 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集成模型 验证 计算机可读存储介质 学习结果 预设 匹配 财产损失 判断装置 数据集 学习器 阈值时 方差 判定 发现 | ||
本发明公开了一种集成模型的失效判断方法,所述集成模型的失效判断方法包括以下步骤:将多个数据集依次输入集成模型中的各个学习器中,以获取多个的学习结果;根据各个所述学习结果计算验证数值,并判断所述验证数值是否匹配预设阈值,其中,所述验证数值为目标平均方差或平均一致率;在所述验证数值不匹配预设阈值时,判定所述集成模型失效。本发明还公开一种集成模型的失效判断装置和计算机可读存储介质。本发明能够及时的发现集成模型的失效,避免造成财产损失。
技术领域
本发明涉及大数据技术领域,尤其涉及一种集成模型的失效判断方法、装置和计算机可读存储介质。
背景技术
随着云处理云计算技术的发展,来自各个信息平台的大量数据的高速汇集,如何从海量低价值密度的数据中挖掘出有价值的信息无疑成为了当前乃至未来一段时间各大领域研究热点。近些年来,机器学习算法的快速发展为数据信息的有效挖掘提供了可能。但在实际应用中,面对这些超高维度、稀疏、低饱和的大数据,单一机器学习算法训练出来的模型通常不能完美地达到期望效果,往往会出现欠拟合和过拟合等现象,而含有多个单一学习器的集成模型,能够很好地解决单一学习器存在的问题。
集成学习的模型框架的核心思想,是在于将通过训练得到的多个单一学习模型进行组合,以获得具有更加优越性能的集成模型。常见的集成方法有 Bagging、Boosting等,所集成的单一模型也可以根据任务如分类、预测、回归或聚类的差异来选择不同的分类器、预测器或滤波器,最后由集成模型给出一个最终结果,那么此时集成模型的可靠性就显得极其重要。
而随着时间的推移,世间万物都在发生日新月异的变化,对于不断更新的数据信息,很难保证由原始数据训练得到的集成模型的可靠性始终如一,也即集成模型存在失效的情况,而一旦集成模型失效,会对集成模型应用的领域造成不可估量的损失。目前,集成模型的失效并没有一个很好的判断方法,也即集成模型的失效判断困难。
发明内容
本发明的主要目的在于提供一种集成模型的失效判断装置、方法和计算机可读存储介质,旨在解决集成模型的失效判断困难的问题。
为实现上述目的,本发明提供的一种集成模型的失效判断方法,所述集成模型的失效判断方法包括以下步骤:
将多个数据集依次输入集成模型中的各个学习器中,以获取多个的学习结果;
根据各个所述学习结果计算验证数值,并判断所述验证数值是否匹配预设阈值,其中,所述验证数值为目标平均方差或平均一致率;
在所述验证数值不匹配预设阈值时,判定所述集成模型失效。
在一实施例中,所述集成模型应用于回归任务,所述根据各个所述学习结果计算验证数值,并判断所述验证数值是否匹配预设阈值的步骤包括:
对各个所述学习结果进行计算,得到目标平均方差;
判断所述目标平均方差是否大于预设方差阈值,其中,在所述目标平均方差大于预设方差阈值时,判定所述验证数值不匹配预设阈值。
在一实施例中,所述对各个所述学习结果进行计算,得到目标平均方差的步骤包括:
计算各个所述学习结果对应的回归均值;
根据所述回归均值以及各个所述学习结果对应的回归值,计算各个所数据集对应的回归方差;
根据各个所述回归方差计算平均回归方差,并将所述平均回归方差作为目标平均方差。
在一实施例中,所述对各个所述学习结果进行计算,得到目标平均方差的步骤包括:
获取各个所述学习器对应的权重;
根据所述权重,对各个所述学习结果进行加权回归均值的计算,以得到加权回归均值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳力维智联技术有限公司,未经深圳力维智联技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811272241.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种日志信息处理方法及系统
- 下一篇:一种基于差分隐私的精确直方图的发布方法