[发明专利]一种模型训练方法、装置及设备在审
申请号: | 201811654086.4 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109800798A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 贺语 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭化雨;王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种模型训练方法、装置及设备,利用辅助数据样本和携带有标签的源数据样本训练待训练模型。其中,所述训练过程包括多次迭代,在第i次迭代的过程中(i大于1),第i次迭代使用的源数据样本,除了第i‑1次迭代使用的源数据样本之外,还包括通过第i‑1次迭代使用的辅助数据样本转化得到的源数据样本。也就是说,第i次迭代使用的源数据样本的数据量,大于第i‑1次迭代使用的源数据样本的数据量。随着训练过程中迭代次数的增加,携带有标签的源数据样本的数据量也越来越多。故而可以在迭代的过程中获得足够的源数据样本,当满足迁移算法对源数据的数据量的要求时,即可训练得到可靠的模型。从而提升了利用迁移算法训练模型的效率。 | ||
搜索关键词: | 源数据 样本 迭代 数据量 装置及设备 辅助数据 模型训练 训练过程 标签 迁移 多次迭代 算法训练 训练模型 样本训练 携带 算法 申请 转化 | ||
【主权项】:
1.一种模型训练方法,其特征在于,所述方法包括:利用总数据样本训练待训练模型;所述总数据样本包括携带有标签的源数据样本;上述训练过程包括多次迭代,在第i次迭代过程中:第i次迭代使用的源数据样本,包括第i‑1次迭代使用的源数据样本和通过第i‑1次迭代使用的辅助数据样本转化得到的源数据样本;所述通过第i‑1次迭代使用的辅助数据样本转化得到的源数据样本,通过如下方式确定:对目标分类样本集中包括的源数据样本和辅助数据样本,以所述目标分类样本集中包括的源数据样本为聚类中心进行聚类,得到聚类集合;所述目标分类样本集为所述待训练模型在第i‑1次迭代时对所述总数据样本进行分类得到的多个分类样本集中的任意一个分类样本集;根据所述各个聚类集合中的辅助数据样本与其对应的聚类中心之间的距离,确定待转化的辅助数据样本;将所述待转化的辅助数据样本转化为源数据样本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811654086.4/,转载请声明来源钻瓜专利网。