[发明专利]模型生成方法及装置、数据处理方法及装置在审
申请号: | 201810916998.8 | 申请日: | 2018-08-13 |
公开(公告)号: | CN109146076A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 刘志鹏;高睿;邹存璐 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N99/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 子模型 模型生成 输出结果 正确率 输出权重 数据处理 输出 训练数据集 集成学习 训练数据 预测 构建 整合 申请 | ||
本申请实施例公开了一种模型生成方法及装置和一种利用该模型生成方法得到的模型进行数据处理的方法及装置。该模型生成方法包括:获得多个初始构建的子模型,利用与其对应的训练数据集进行模型的训练,并使用训练数据集中输入数据对每个训练后的子模型进行输出结果的预测;根据子模型的预测正确率确定其输出权重,以利用输出权重整合每个训练后的子模型的输出结果作为模型的输出,提高正确率高的训练后的子模型的输出对模型输出结果的影响,并降低正确率低的训练后的子模型的输出对模型输出结果的影响,从而提高了集成学习结果的正确率。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型生成方法及装置、数据处理方法及装置。
背景技术
机器学习是人工智能的一个分支,是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。其中,集成学习方法是使用一系列“个体学习器”(individuallearner)进行学习,并使用某种规则把各个“个体学习器”的结果进行整合从而获得比单个个体学习器更好的学习效果的一种机器学习方法。图1示出了一种集成学习模型的基本结构,先产生一组个体学习器(也可称为子模型),再通过结合模块采用某种结合的策略将多个个体学习器的预测输出结合起来得到最终的输出。
目前,集成学习方法可大致分为两大类:一是,个体学习器间存在强依赖关系、必须串行生成的序列化方法,代表是Boosting方式;二是,个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表是Bagging方式。在对多个个体学习器的预测输出进行结合时,Bagging方式的集成学习结果通常是通过对多个个体学习器的预测输出采用简单投票法(即“少数服从多数”)产生,若多数个体学习器的预测输出错误,则会导致集成学习结果出错,导致现有的Bagging方法存在集成学习结果正确率不高的问题。
发明内容
有鉴于此,本申请实施例提供了一种模型生成方法及装置、数据处理方法及装置,能够解决现有技术中个体学习器的正确率低严重影响集成学习结果的正确率,导致集成学习结果正确率不高的问题。
本申请实施例提供的一种模型生成方法,包括:
获得多个初始构建的子模型,对于每个所述初始构建的子模型均利用与其对应的训练数据集进行模型的训练,并使用每个训练后的子模型,对与其对应的训练数据集中输入数据进行输出结果的预测;所述训练数据集包括多个实例,每个实例包括输入数据和输出结果;生成的模型包括每个训练后的子模型;
根据目标子模型的预测正确率确定所述目标子模型的输出权重;所述目标子模型是所述每个训练后的子模型中的任意一个;所述预测正确率根据所述目标子模型的预测输出和与其对应的训练数据集中的输出结果得到;所述输出权重用于整合所述每个训练后的子模型的输出结果作为所述模型的输出。
可选的,所述获得多个初始构建的子模型,对于每个所述初始构建的子模型均利用与其对应的训练数据集进行模型的训练,并使用每个训练后的子模型,对与其对应的训练数据集中输入数据进行输出结果的预测,具体包括:
获得初始构建的第一子模型和对应的第一训练数据集,并使用所述第一训练数据集训练所述初始构建的第一子模型;
将所述第一训练数据集中的输入数据输入训练后的第一子模型进行输出结果的预测,得到第一预测输出;
根据所述第一预测输出和所述第一训练数据集中的输出结果,统计所述第一训练数据集中预测错误的实例作为第二训练数据集;
获得初始构建的第二子模型,并使用所述第二训练数据集训练所述初始构建的第二子模型;
其中,所述初始构建的第一子模型和所述初始构建的第二子模型是所述多个初始构建的子模型中的任意两个,所述多个初始构建的子模型使用相同的模型算法和参数。
可选的,所述统计所述第一训练数据集中预测错误的实例作为第二训练数据集,之后还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810916998.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于提升骨髓干细胞活性的超声激励参数优化方法
- 下一篇:一种SAT求解器