[发明专利]文本分类模型的训练方法、系统及相关设备在审
申请号: | 202011035101.4 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112256867A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 饶思维;张鹏;马鑫典;张静;田光见 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 训练 方法 系统 相关 设备 | ||
1.一种文本分类模型的训练方法,其特征在于,所述方法由计算机装置执行,所述方法包括:
采用第一超参数和多个样本词向量序列对张量网络进行第一轮迭代训练,以得到目标纠缠熵,其中,所述目标纠缠熵的值为在进行所述第一轮迭代训练过程中得到的第一纠缠熵收敛时的值;
根据所述目标纠缠熵计算得到第二超参数;
采用所述第二超参数和所述多个样本词向量序列对所述张量网络进行第二轮迭代训练,得到所述文本分类模型,其中,所述文本分类模型为在进行所述第二轮迭代训练过程中计算得到的第二纠缠熵收敛时的张量网络模型。
2.根据权利要求1所述的方法,其特征在于,所述张量网络包括判别式张量网络和r个生成式张量网络,所述r个生成式张量网络的输出数据为所述判别式张量网络的输入数据;
其中,所述r为正整数。
3.根据权利要求2所述的方法,其特征在于,所述迭代训练包括:
对所述多个样本词向量序列中的每个样本词向量序列执行以下操作,得到多个第一预测标签,其中,所述多个样本词向量序列与所述多个第一预测标签相对应:
采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,其中,所述第一目标词向量序列为所述多个样本词向量序列中的任意一个,t为迭代次数;
将所述第二目标词向量序列输入所述张量网络模型Mt中的判别式张量网络,得到目标文本的第一预测标签,其中,所述目标文本为与所述第一目标词向量序列对应的文本;
根据所述多个第一预测标签和所述多个样本词向量序列对应的真实标签计算损失值Lt;
根据所述损失值Lt调整所述张量网络模型Mt中的参数,以得到张量网络模型Mt+1;并根据所述张量网络模型Mt+1中的参数计算得到第三纠缠熵;
当所述第三纠缠熵不收敛时,令t=t+1,并重复执行上述步骤,直至所述第三纠缠熵收敛;当所述第三纠缠熵收敛时,若所述迭代训练为所述第一轮迭代训练,则所述目标纠缠熵为所述第三纠缠熵;若所述迭代训练为所述第二轮迭代训练,则所述文本分类模型为所述张量网络模型Mt+1;
其中,当t=1时,所述张量网络模型Mt为初始张量网络模型。
4.根据权利要求3所述的方法,其特征在于,所述第一目标词向量序列包括n个第一词向量,其中,所述n为正整数,所述采用张量网络模型Mt中的r个生成式张量网络对第一目标词向量序列中的每个第一词向量进行降维处理,得到第二目标词向量序列,包括:
对所述n个第一词向量分别进行特征映射,得到n个第一张量,其中,所述第一张量为所述第一词向量的张量表示;
采用所述张量网络模型Mt中的r个生成式张量网络对所述n个第一张量中的每个第一张量进行降维处理,得到所述第二目标词向量序列。
5.根据权利要求4所述的方法,其特征在于,所述张量网络模型Mt中的r个生成式张量网络与r个第一权重参数相对应,所述采用所述张量网络模型Mt中的r个生成式张量网络对所述n个第一张量中的每个第一张量进行降维处理,得到所述第二目标词向量序列,包括:
对所述n个第一张量中的每个第一张量执行以下操作,得到n个第二词向量,其中,所述n个第二词向量与所述n个第一张量相对应:
将所述r个第一权重参数分别与第二张量进行张量缩并运算,得到r个张量缩并运算结果,其中,所述第二张量为所述n个第一张量中的任意一个第一张量;
根据所述r个张量缩并运算结果得到r个目标概率值,其中,所述r个目标概率值的和为1;
根据所述r个目标概率值得到第二词向量;
所述n个第二词向量构成所述第二目标词向量序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011035101.4/1.html,转载请声明来源钻瓜专利网。