[发明专利]自然语言处理模型的训练方法及装置有效
申请号: | 201910471393.7 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110188358B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 李健铨;刘小康;马力群 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06N3/098 | 分类号: | G06N3/098;G06N3/084;G06N3/044;G06N3/048;G06F18/25;G06F40/30;G06F40/284;G06F40/211 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 处理 模型 训练 方法 装置 | ||
1.一种自然语言处理模型的训练方法,其特征在于,应用于多个具有不同任务目标的自然语言处理模型,所述多个自然语言处理模型共享部分隐层;
对于每一任务目标,将相应训练样本输入至相应自然语言处理模型中,输出任务目标向量;
根据所述任务目标向量和多标签矩阵计算命中概率,所述多标签矩阵包括所有任务目标相应训练样本的标签信息;
根据所述命中概率计算单任务损失值,根据各自然语言处理模型对应的单任务损失值计算多任务损失值;
根据所述多任务损失值,调整每一自然语言处理模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述任务目标向量和多标签矩阵计算命中概率,包括:
使用所述任务目标预设的偏置矩阵对多标签矩阵进行偏置处理;
将所述任务目标向量与所述偏置处理结果相乘,获得命中概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述命中概率计算单任务损失值,包括:
将所述命中概率与所述训练样本相应的标签信息代入交叉熵损失函数,计算交叉熵损失值;
计算所述偏置矩阵的L2正则项;
计算所述交叉熵损失值与偏置矩阵L2正则项的加和,得到单任务损失值。
4.根据权利要求1所述的方法,其特征在于,所述根据各自然语言处理模型对应的单任务损失值计算多任务损失值,包括:
计算各自然语言处理模型对应的单任务损失值的加和,得到所述多任务损失值。
5.根据权利要求1所述的方法,其特征在于,所述根据各自然语言处理模型对应的单任务损失值计算多任务损失值,包括:
根据每一自然语言处理模型相应的训练样本数量,获取所述自然语言处理模型的参数调整权重;
使用所述参数调整权重对所述单任务损失值加权求和,得到多任务损失值。
6.根据权利要求1所述的方法,其特征在于,所述自然语言处理模型的隐层包括基于递归神经网络模型的第一编码模块、经预训练的第二编码模块和融合模块,所述经预训练的第二编码模块为所述多个自然语言处理模型共享的所述部分隐层;
所述第二编码模块包括串行设置的多个具有不同基础任务目标的第二编码子模块,以使每一所述第二编码子模块获取到输入文本的一种类型的共享特征。
7.根据权利要求6所述的方法,其特征在于,所述根据多任务损失值,调整每一自然语言处理模型的参数,包括:
获取每一所述第二编码子模块预设的更新控制系数;
根据所述多任务损失值和相应的更新控制系数,调整每一所述第二编码子模块的参数;
以及,根据所述多任务损失值,分别调整所述每一自然语言处理模型中所述第一编码模块、融合模块以及输出层的参数。
8.根据权利要求6所述的方法,其特征在于,所述将相应训练样本输入至相应自然语言处理模型中,输出任务目标向量,包括:
将相应训练样本分别输入至所述第一编码模块和第二编码模块,以利用第一编码模块获取所述训练样本的任务特征向量,利用第二编码模块获取所述训练样本的至少一个共享特征向量,所述共享特征向量为所述训练样本针对任意任务目标的特征表示;
将所述共享特征向量和任务特征向量共同输入到融合模块进行特征融合,并将融合结果输入至解码模块,输出任务目标向量。
9.根据权利要求8所述的方法,其特征在于,所述融合模块包括一全连接神经网络层和Softmax层,所述将共享特征向量与任务特征向量共同输入到融合模块进行特征融合,包括:
将任务特征向量输入到所述全连接神经网络层中;
将任务特征向量全连接神经网络层的输出输入到Softmax层,得到归一化结果;
使用归一化处理结果分别与每一个共享特征向量相乘,并计算所有乘积结果的加和;
将加和结果与任务特征向量拼接,实现共享特征向量与任务特征向量的融合。
10.一种自然语言处理模型的训练装置,其特征在于,应用于多个具有不同任务目标的自然语言处理模型,所述多个自然语言处理模型共享部分隐层;所述装置包括:
输入单元,用于对于每一任务目标,将相应训练样本输入至相应自然语言处理模型中,输出任务目标向量;
概率计算单元,用于根据所述任务目标向量和多标签矩阵计算命中概率,所述多标签矩阵包括所有任务目标相应训练样本的标签信息;
损失计算单元,用于根据所述命中概率计算单任务损失值,根据各自然语言处理模型对应的单任务损失值计算多任务损失值;
参数调整单元,用于根据所述多任务损失值,调整每一自然语言处理模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910471393.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:对象的行业识别方法及装置
- 下一篇:一种文本实体抽取方法