[发明专利]模型训练方法、文本分类方法、电子设备及存储介质在审
申请号: | 202010861649.8 | 申请日: | 2020-08-24 |
公开(公告)号: | CN111898707A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 刘小康;李健铨;晋耀红 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 蒋姗 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 文本 分类 电子设备 存储 介质 | ||
1.一种模型训练方法,其特征在于,包括:
获取老师模型和学生模型;其中,所述老师模型为训练好的模型,包括第一向量embedding层、第一转换器transformer层和第一预测prediction层,且所述第一transformer层包括M层;所述学生模型为待训练的模型,包括第二embedding层、第二transformer层和第二prediction层,且所述第二transformer层包括N层;M和N均为正整数,且M>N;
获取训练样本,并根据训练样本获得第二transformer层中的第i层到第一transformer层中的第j层之间的距离;其中,i和j均为正整数,且i≤N,j≤M;
根据第二transformer层中的第i层到第一transformer层中的第j层之间的距离以及搬运量,对所述第二transformer层中每一层对应的权重进行更新,获得对应层的更新后的权重;
利用所述更新后的权重计算第二transformer层与第一transformer层之间的搬土距离EMD,获得第一蒸馏损失;
分别计算第一embedding层的输出与第二embedding层的输出之间的第二蒸馏损失,以及第一prediction层的输出与第二prediction层的输出之间的第三蒸馏损失;
根据所述第一蒸馏损失、所述第二蒸馏损失和所述第三蒸馏损失对所述学生模型中的参数进行训练,获得训练后的学生模型。
2.根据权利要求1所述的方法,其特征在于,所述根据第二transformer层中的第i层到第一transformer层中的第j层之间的距离以及搬运量,对所述第二transformer层中每一层对应的权重进行更新,获得对应层的更新后的权重,包括:
根据第二transformer层中的第i层到第一transformer层中的第j层之间的距离以及搬运量,计算获得第二transformer层中的第i层对应的搬运成本;
根据所述第二transformer层中的第i层对应的搬运成本和第二transformer层中的第i层对应的权重计算获得第二transformer层中的第i层对应的单位搬运成本;
根据所述第二transformer层所有层的单位搬运成本之和与第i层对应的单位搬运成本计算获得第i层对应的更新后的权重。
3.根据权利要求2所述的方法,其特征在于,所述根据第二transformer层中的第i层到第一transformer层中的第j层之间的距离以及搬运量,计算获得第二transformer层中的第i层对应的搬运成本,包括:
根据公式计算获得第二transformer层中的第i层对应的搬运量;
其中,为第二transformer层中的第i层对应的搬运成本,dij为第二transformer层中的第i层到第一transformer层中的第j层之间的距离,fij为第二transformer层中的第i层到第一transformer层中的第j层的搬运量。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第二transformer层中的第i层对应的搬运成本和第二transformer层中的第i层对应的权重计算获得第二transformer层中的第i层对应的单位搬运成本,包括:
根据公式计算获得第二transformer层中的第i层对应的单位搬运成本;
其中,为第二transformer层中的第i层对应的单位搬运成本,为第二transformer层中的第i层对应的搬运成本,为第二transformer层中的第i层对应的搬运量,dij为第二transformer层中的第i层到第一transformer层中的第j层之间的距离,fij为第二transformer层中的第i层到第一transformer层中的第j层的搬运量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010861649.8/1.html,转载请声明来源钻瓜专利网。