[发明专利]网络模型训练方法、装置、文本分类模型及网络模型在审

申请号：	202110402004.2	申请日：	2021-04-14
公开（公告）号：	CN113077051A	公开（公告）日：	2021-07-06
发明（设计）人：	黄深能;赵茜;利啟东;佟博;高玮;叶凯亮;胡盼盼	申请（专利权）人：	广东博智林机器人有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04;G06K9/62
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	余菲
地址：	528000 广东省佛山市顺德区北滘镇碧桂园社***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网络模型训练方法装置文本分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网络模型训练方法，其特征在于，包括：

获取训练样本集，所述训练样本集包括常见类样本和少见类样本；

利用所述训练样本集对双边分支网络模型进行训练，得到训练好的文本分类模型，其中，所述双边分支网络模型的两个分支网络均包括基于多尺度注意力机制模块的编码层。

2.根据权利要求1所述的方法，其特征在于，利用所述训练样本集对双边分支网络模型进行训练，包括：

每次迭代训练时，对所述训练样本集中的样本进行随机采样，以及对所述训练样本集中的不同类别样本进行权重采样，在进行权重采样时，类别数量少的样本的采样频率大于类别数量多的样本的采样频率；

将随机采样的N个样本输入所述双边分支网络模型中的第一分支网络中，将权重采样的N个样本输入所述双边分支网络模型中的第二分支网络中，对所述双边分支网络模型进行迭代训练，其中，N为正整数，且小于所述训练样本集中的样本数。

3.根据权利要求1所述的方法，其特征在于，训练过程中，通过梯度平均模长和训练轮次动态调整两个分支网络对应的自适应权重因子，从而动态调整两个分支网络的特征融合。

4.根据权利要求3所述的方法，其特征在于，所述双边分支网络模型中的第一分支网络和第二分支网络的自适应权重因子分别为W1和W2；

其中，W1＝a1*g1，W2＝a2*g2，a1＝1-T/2*Tmax，a2＝T/2*Tmax，T表示当前训练轮次，Tmax表示训练最大轮次，K为最大样本类别，和fc_i分别表示当前训练轮次输入所述第一分支网络的样本中的第i类别样本的真实值和预测值，和fr_i分别表示当前训练轮次输入所述第二分支网络的样本中的第i类别样本的真实值和预测值。

5.一种文本分类模型，用于处理待分类文本，其特征在于：

所述文本分类模型由如权利要求1-4中任一项所述的网络模型训练方法训练得到。

6.一种网络模型，其特征在于，包括：

第一分支网络、第二分支网络，所述第一分支网络和所述第二分支网络均包括基于多尺度注意力机制模块的编码层；以及，

合并层，用于将所述第一分支网络和所述第二分支网络各自输出的特征向量进行相加，并作为模型的最终预测值输出。

7.根据权利要求6所述的模型，其特征在于，所述编码层中的多尺度注意力机制模块中不同信息头head对应的超参数权重不同。

8.一种网络模型训练装置，其特征在于，包括：

获取模块，用于获取训练样本集，所述训练样本集包括常见类样本和少见类样本；

训练模块，用于利用所述训练样本集对双边分支网络模型进行训练，得到训练好的文本分类模型，其中，所述双边分支网络模型的两个分支网络均包括基于多尺度注意力机制模块的编码层。

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述处理器与所述存储器连接；

所述存储器，用于存储程序；