[发明专利]语料处理模型训练方法、装置、存储介质及电子设备在审
申请号: | 202110356549.4 | 申请日: | 2021-04-01 |
公开(公告)号: | CN113010647A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 铁瑞雪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 处理 模型 训练 方法 装置 存储 介质 电子设备 | ||
1.一种语料处理模型训练方法,其特征在于,所述方法包括:
为样本语料拼接标签,得到拼接结果;
对所述拼接结果进行切分处理,使得所述样本语料中的每个语料单元对应一个待识别命名实体的对象并且每个所述标签对应一个待分类的对象,根据切分处理结果得到对象序列;
通过特征提取网络对所述对象序列进行特征提取,得到特征信息序列;
通过实体识别网络对所述特征信息序列进行实体识别,得到实体识别结果序列,所述实体识别结果序列中每个实体识别结果表征对应的对象属于预设类目的概率分布,所述预设类目包括命名实体类目和分类类目;
确定所述对象序列中的对象对应的标注类目,得到标注路径;
根据所述实体识别结果序列和所述标注路径,调整所述特征提取网络和所述实体识别网络的参数;
根据调整后的所述特征提取网络和所述实体识别网络,得到所述语料处理模型。
2.根据权利要求1所述的方法,其特征在于,所述确定所述对象序列中的对象对应的标注类目,得到标注路径,包括:
确定所述对象序列中每个对象对应的标注类目,得到所述标注路径,其中,对应于所述语料单元的对象的标注类目为命名实体类目,对应于所述标签的对象的标注类目为分类类目;
所述根据所述实体识别结果序列和所述标注路径,调整所述特征提取网络和所述实体识别网络的参数,包括:
以所述标注路径的概率与第一路径总概率的比值最高为训练目标,调整所述特征提取网络和所述实体识别网络的参数,其中,所述第一路径总概率表征基于所述实体识别结果序列得到的所有可能的路径的概率总和。
3.根据权利要求1所述的方法,其特征在于,所述标注路径包括第一标注路径和第二标注路径,所述确定所述对象序列中的对象对应的标注类目,得到标注路径,包括:
确定所述对象序列中对应于所述语料单元的对象所对应的标注类目,得到所述第一标注路径;
确定所述对象序列中对应于所述标签的对象所对应的标注类目,得到所述第二标注路径;
所述根据所述实体识别结果序列和所述标注路径,调整所述特征提取网络和所述实体识别网络的参数,包括:
在所述实体识别结果序列中提取对应于所述语料单元的对象对应的实体识别结果,得到命名实体预测序列;
根据所述第一标注路径的概率与第二路径总概率的比值确定命名实体识别损失,其中,所述第二路径总概率表征基于所述命名实体预测序列得到的所有可能的路径的概率总和;
对于所述第二标注路径中的每个标注类目,基于所述标注类目对应的对象的实体识别结果和所述标注类目,确定所述标注类目对应的对象的分类损失;
根据所述命名实体识别损失和各所述分类损失,调整所述特征提取网络和所述实体识别网络的参数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述命名实体识别损失和各所述分类损失,调整所述特征提取网络和所述实体识别网络的参数,包括:
确定对应于语料单元的对象的第一数量;
确定对应于标签的对象的第二数量;
根据所述第一数量和所述第二数量,确定所述命名实体识别损失对应的第一权重和所述分类损失对应的第二权重;
根据所述命名实体识别损失、第一权重、分类损失和第二权重确定总损失;
根据所述总损失调节所述特征提取网络和所述实体识别网络的参数。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述为样本语料拼接标签,得到拼接结果,包括:
获取所述样本语料中的语料单元数量;
为所述样本语料拼接所述语料单元数量个标签,得到所述拼接结果。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,所述通过特征提取网络对所述对象序列进行特征提取,得到特征信息序列,包括:
对所述对象序列中各个对象进行词法特征提取,得到词法特征序列;
对所述词法特征序列进行句法特征提取,得到目标特征序列;
对所述目标特征序列进项双向语义特征提取,得到所述特征信息序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110356549.4/1.html,转载请声明来源钻瓜专利网。