[发明专利]模型结构的获取方法及装置在审
申请号: | 202210317094.X | 申请日: | 2022-03-29 |
公开(公告)号: | CN114707592A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 王梦娣;李与超;李深 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/30;G06N3/04 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 谭镇 |
地址: | 310051 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 结构 获取 方法 装置 | ||
1.一种模型结构的获取方法,其特征在于,包括:
在对包括多个子模型的模型集合进行迭代训练的过程中,根据第一迭代操作结束后所述子模型的第一采样概率,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式;所述第二迭代操作为所述第一迭代操作的下一次迭代操作;
在执行了至少一次的迭代操作后,获得所述模型集合中子模型的第二采样概率;
根据目标设备的算力资源约束条件和所述第二采样概率,从所述模型集合中选取目标子模型,并根据所述目标子网络获取目标模型。
2.根据权利要求1所述的方法,其特征在于,所述根据第一迭代操作结束后所述子模型的第一采样概率,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式,包括:
根据所述第一采样概率,计算与所述第一迭代操作对应的采样效果得分,所述采样效果得分越小,所述第一迭代操作的采样效果越佳;
根据预设的方式选取函数和所述采样效果得分,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的方式选取函数和所述采样效果得分,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式,包括:
根据伯努利分布函数、预设的采样次数和所述采样效果得分,从预设的均匀采样方式和优化采样方式中选取目标采样方式,使得第二迭代操作按照所述目标采样方式从所述模型集合中选取待训练的子模型进行训练;
其中,所述均匀采样方式用于按照固定的选取概率选取所述子模型;所述优化采样方式针对训练效果更好的子模型具有更高的选取概率。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一采样概率,计算与所述第一迭代操作对应的采样效果得分,包括:
将所述子模型的第一采样概率的对数的累加值,作为与所述第一迭代操作对应的采样效果得分;
所述根据伯努利分布函数、预设的采样次数和所述采样效果得分,从预设的均匀采样方式和优化采样方式中选取目标采样方式,包括:
计算所述采样效果得分的归一化处理结果;
将所述采样效果得分与所述归一化处理结果的比值,确定为所述伯努利分布函数中用于选取所述优化采样方式的目标概率;所述采样效果得分与所述目标概率呈正比例关系;
根据所述伯努利分布函数、所述采样次数和所述目标概率,从所述均匀采样方式和所述优化采样方式中选取目标采样方式。
5.根据权利要求1所述的方法,其特征在于,所述根据目标设备的算力资源约束条件和所述第二采样概率,从所述模型集合中选取目标子模型,并根据所述目标子网络获取目标模型,包括:
按照所述第二采样概率对所述子模型进行排序,得到目标序列;
从所述目标序列中第二采样概率最大的子模型开始,选取符合算力资源约束条件的目标子模型,并根据所述目标子网络获取目标模型。
6.根据权利要求5所述的方法,其特征在于,所述从所述目标序列的起点开始,选取符合算力资源约束条件的目标子模型构成目标模型,包括:
获取所述模型集合中的子模型的资源需求量;
从所述目标序列的起点开始选取一个或多个目标子模型,并确定每次选取操作所选取的目标子模型的模型精度,每次选取的目标子模型的资源需求量之和,小于或等于与所述算力资源约束条件对应的资源上限值;
将所述模型精度最大的选取操作所选取的目标子模型构成所述目标模型。
7.根据权利要求6所述的方法,其特征在于,所述资源上限值包括:模型参数量上限值、模型单次计算量上限值、模型内存使用量上限值中的至少一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210317094.X/1.html,转载请声明来源钻瓜专利网。