[发明专利]一种模型训练方法、装置及电子设备在审
申请号: | 202011305426.X | 申请日: | 2020-11-19 |
公开(公告)号: | CN112418301A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 李金汇;林加新;陈立 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/02;G06N3/08 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 冷仔 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 电子设备 | ||
本申请适用于人工智能技术领域,提供一种模型训练方法、装置及电子设备,其中方法包括:通过第一分类模型从样本池中对未标注样本进行分类采样,得到采样数据;基于所述采样数据,对所述第一分类模型进行模型训练,得到训练更新后的第一分类模型,并返回执行通过第一分类模型从样本池中对未标注样本进行分类采样,得到采样数据的步骤,直至采样得到N组采样数据;基于N组采样数据,筛选得到训练样本数据,根据训练样本数据,对第二分类模型进行模型训练。该方案能够有效降低冗余样本,提升采样数据的有效性,提升后续模型的训练效果及训练好之后模型的分类性能。
技术领域
本申请属于人工智能技术领域,尤其涉及一种模型训练方法、装置及电子设备。
背景技术
模型训练是人工智能领域中不可或缺的一个环节,模型根据训练数据以及对应的标签调整模型的参数,从而学习到数据与标签的内在联系。而对于一个分类任务而言,模型学习到的是数据的类别边界。
传统的训练过程中,样本数据是随机选择的,或者称之为随机采样。而随机采样并不是效率最高的做法,因为有些数据包含的信息比较多,对于确定类别边界的帮助更大,相对的有些数据所包含的信息比较少或者说比较冗余,对于确定类别边界的帮助较少。使用随机挑选样本的方法隐含了冗余样本的增加,样本有效性较低,导致模型的训练效果及训练好之后模型的分类性能较差。
发明内容
本申请实施例提供了一种模型训练方法、装置及电子设备,以解决现有技术中模型训练样本的选取有效性较低,模型的训练效果及训练好之后模型的分类性能较差的问题。
本申请实施例的第一方面提供了一种模型训练方法,包括:
通过第一分类模型从样本池中对未标注样本进行分类采样,得到采样数据;
基于所述采样数据,对所述第一分类模型进行模型训练,得到训练更新后的所述第一分类模型;
返回执行所述通过第一分类模型从样本池中对未标注样本进行分类采样,得到采样数据的步骤,直至采样得到N组所述采样数据;N≥2;
基于所述N组采样数据,筛选得到训练样本数据;
根据所述训练样本数据,对第二分类模型进行模型训练。
本申请实施例的第二方面提供了一种模型训练装置,包括:
采样模块,用于通过第一分类模型从样本池中对未标注样本进行分类采样,得到采样数据;
模型更新模块,用于基于所述采样数据,对所述第一分类模型进行模型训练,得到训练更新后的所述第一分类模型,并返回执行所述通过第一分类模型从样本池中对未标注样本进行分类采样,得到采样数据的步骤,直至采样得到N组所述采样数据;N≥2;
获取模块,用于基于所述N组采样数据,筛选得到训练样本数据;
模型训练模块,用于根据所述训练样本数据,对第二分类模型进行模型训练。
本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。
本申请的第五方面提供了一种计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行上述第一方面所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011305426.X/2.html,转载请声明来源钻瓜专利网。