[发明专利]知识蒸馏方法、装置、终端设备及介质在审
申请号: | 202110780582.X | 申请日: | 2021-07-09 |
公开(公告)号: | CN113487028A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 周旋;张晓;徐冰;汪伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06F16/35;G06F40/279;G06F40/30 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 姚泽鑫 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 蒸馏 方法 装置 终端设备 介质 | ||
1.一种知识蒸馏方法,其特征在于,包括:
指示学生模型和收敛后的教师模型,分别对样本集中的测试样本进行实体识别,以分别得到预测序列和所述预测序列对应的序列概率,所述预测序列用于表征所述测试样本中的实体组合,所述学生模型的参数根据收敛后的所述教师模型进行参数设置得到;
根据所述预测序列和所述预测序列对应的序列概率,对所述学生模型进行参数更新;
若参数更新后的所述学生模型未收敛,则返回执行所述指示学生模型和收敛后的教师模型,分别对样本集中的测试样本进行实体识别的步骤及后续步骤,直至所述学生模型收敛。
2.根据权利要求1所述的知识蒸馏方法,其特征在于,所述教师模型包括语言表示层、与所述语言表示层输出端连接的第一特征映射层和与所述第一特征映射层输出端连接的第一条件随机场,所述方法还包括:
分别对所述语言表示层和所述第一特征映射层进行学习率设置,并将训练集数据输入学习率设置后的所述语言表示层进行特征编码,得到文本向量序列,所述文本向量序列用于表征所述训练集数据中文本的语义信息;
将所述文本向量序列输入所述第一特征映射层进行特征投影,得到投影特征序列,所述特征投影用于对所述文本向量序列进行矩阵映射;
将所述投影特征序列输入学习率设置后的所述第一条件随机场进行条件随机处理,得到特征输出序列,并根据所述特征输出序列进行模型损失计算,得到模型损失值;
根据所述模型损失值分别对所述语言表示层、所述第一特征映射层和所述第一条件随机场进行参数更新,直至所述语言表示层、所述第一特征映射层和所述第一条件随机场满足收敛条件,得到收敛后的所述教师模型。
3.根据权利要求2所述的知识蒸馏方法,其特征在于,所述将所述投影特征序列输入学习率设置后的所述第一条件随机场进行条件随机处理,得到特征输出序列之后,还包括:
分别获取所述特征输出序列中各特征的标签信息;
若任一相邻特征之间的标签信息不满足标签转移规则,则删除所述相邻特征的标签信息。
4.根据权利要求2所述的知识蒸馏方法,其特征在于,所述学生模型包括双向循环神经网络层、与所述双向循环神经网络层输出端连接的第二特征映射层、与所述第二特征映射层输出端连接的标签表示层和与所述标签表示层输出端连接的第二条件随机场,所述得到收敛后的所述教师模型之后,还包括:
根据收敛后的所述语言表示层中的词嵌入向量参数,对所述双向循环神经网络层中的词嵌入向量参数进行参数设置。
5.根据权利要求1所述的知识蒸馏方法,其特征在于,所述根据所述预测序列和所述预测序列对应的序列概率,对所述学生模型进行参数更新,包括:
根据CRF损失函数对所述学生模型的预测序列和序列概率进行损失计算,得到第一损失值;
根据第一交叉熵损失函数对所述教师模型和所述学生模型的预测序列和序列概率进行交叉损失计算,得到第二损失值;
根据第二交叉熵损失函数对所述教师模型和所述学生模型的预测序列和序列概率进行二分类损失计算,得到第三损失值;
根据所述第一损失值、所述第二损失值和所述第三损失值对所述学生模型进行参数更新。
6.根据权利要求5所述的知识蒸馏方法,其特征在于,所述根据第二交叉熵损失函数对所述教师模型和所述学生模型的预测序列和序列概率进行二分类损失计算,得到第三损失值,包括:
对所述教师模型和所述学生模型的预测序列进行序列打包,得到打包序列,并将同一所述预测序列对应的序列概率进行求和,得到求和概率;
根据所述第二交叉熵损失函数对所述打包序列和所述求和概率进行二分类损失计算,得到所述第三损失值。
7.根据权利要求2至4任一所述的知识蒸馏方法,其特征在于,所述将训练集数据输入学习率设置后的所述语言表示层进行特征编码,得到文本向量序列之后,还包括:
确定所述语言表示层的过拟合概率值,并根据所述过拟合概率值对所述语言表示层中的神经元进行过拟合处理,所述过拟合处理用于删除所述语言表示层中的神经元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110780582.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种景观雨水收集装置及循环用水系统
- 下一篇:油泵可靠性验证装置及验证方法