[发明专利]网络模型训练方法、装置、文本分类模型及网络模型在审
申请号: | 202110402004.2 | 申请日: | 2021-04-14 |
公开(公告)号: | CN113077051A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 黄深能;赵茜;利啟东;佟博;高玮;叶凯亮;胡盼盼 | 申请(专利权)人: | 广东博智林机器人有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 余菲 |
地址: | 528000 广东省佛山市顺德区北滘镇碧桂园社*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 模型 训练 方法 装置 文本 分类 | ||
1.一种网络模型训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集包括常见类样本和少见类样本;
利用所述训练样本集对双边分支网络模型进行训练,得到训练好的文本分类模型,其中,所述双边分支网络模型的两个分支网络均包括基于多尺度注意力机制模块的编码层。
2.根据权利要求1所述的方法,其特征在于,利用所述训练样本集对双边分支网络模型进行训练,包括:
每次迭代训练时,对所述训练样本集中的样本进行随机采样,以及对所述训练样本集中的不同类别样本进行权重采样,在进行权重采样时,类别数量少的样本的采样频率大于类别数量多的样本的采样频率;
将随机采样的N个样本输入所述双边分支网络模型中的第一分支网络中,将权重采样的N个样本输入所述双边分支网络模型中的第二分支网络中,对所述双边分支网络模型进行迭代训练,其中,N为正整数,且小于所述训练样本集中的样本数。
3.根据权利要求1所述的方法,其特征在于,训练过程中,通过梯度平均模长和训练轮次动态调整两个分支网络对应的自适应权重因子,从而动态调整两个分支网络的特征融合。
4.根据权利要求3所述的方法,其特征在于,所述双边分支网络模型中的第一分支网络和第二分支网络的自适应权重因子分别为W1和W2;
其中,W1=a1*g1,W2=a2*g2,a1=1-T/2*Tmax,a2=T/2*Tmax,T表示当前训练轮次,Tmax表示训练最大轮次,K为最大样本类别,和fci分别表示当前训练轮次输入所述第一分支网络的样本中的第i类别样本的真实值和预测值,和fri分别表示当前训练轮次输入所述第二分支网络的样本中的第i类别样本的真实值和预测值。
5.一种文本分类模型,用于处理待分类文本,其特征在于:
所述文本分类模型由如权利要求1-4中任一项所述的网络模型训练方法训练得到。
6.一种网络模型,其特征在于,包括:
第一分支网络、第二分支网络,所述第一分支网络和所述第二分支网络均包括基于多尺度注意力机制模块的编码层;以及,
合并层,用于将所述第一分支网络和所述第二分支网络各自输出的特征向量进行相加,并作为模型的最终预测值输出。
7.根据权利要求6所述的模型,其特征在于,所述编码层中的多尺度注意力机制模块中不同信息头head对应的超参数权重不同。
8.一种网络模型训练装置,其特征在于,包括:
获取模块,用于获取训练样本集,所述训练样本集包括常见类样本和少见类样本;
训练模块,用于利用所述训练样本集对双边分支网络模型进行训练,得到训练好的文本分类模型,其中,所述双边分支网络模型的两个分支网络均包括基于多尺度注意力机制模块的编码层。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器与所述存储器连接;
所述存储器,用于存储程序;
所述处理器,用于调用存储于所述存储器中的程序,以执行如权利要求1-4中任一项所述的方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如权利要求1-4中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东博智林机器人有限公司,未经广东博智林机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110402004.2/1.html,转载请声明来源钻瓜专利网。