[发明专利]语料处理模型训练方法、装置、存储介质及电子设备在审
申请号: | 202110356549.4 | 申请日: | 2021-04-01 |
公开(公告)号: | CN113010647A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 铁瑞雪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 处理 模型 训练 方法 装置 存储 介质 电子设备 | ||
本申请实施例公开了语料处理模型训练方法、装置、存储介质及电子设备,上述方法包括为样本语料拼接标签得到拼接结果;对该拼接结果进行切分处理得到对象序列;通过特征提取网络对该对象序列进行特征提取,得到特征信息序列;通过实体识别网络对该特征信息序列进行实体识别,得到实体识别结果序列,该实体识别结果序列中每个实体识别结果表征对应的对象属于预设类目的概率分布,该预设类目包括命名实体类目和分类类目;确定标注路径;根据该实体识别结果序列和该标注路径,调整该特征提取网络和该实体识别网络的参数;根据调整结果得到语料处理模型。本申请实施例可以对模型联合进行命名实体识别训练和分类训练,并且取得较好的训练效果。
技术领域
本申请实施例涉及人工智能领域,尤其涉及语料处理模型训练方法、装置、存储介质及电子设备。
背景技术
命名实体识别和语料分类是自然语言处理领域两大基础任务,为了完成这两种任务,在实际应用场景中往往需要分别训练命名实体识别模型和语料分类模型。命名实体识别模型和语料分类模型可以通过级联形式进行训练,这种级联训练会放大级联误差,并且可能在一定程度上依赖于命名实体识别规则和语料分类规则的堆砌。命名实体识别模型和语料分类模型也可以在共享嵌入层的前提下分别训练,但是这种分别训练无法共享涉及到命名实体识别和语料分类识别的高级语义信息,影响了训练效果。
发明内容
为了避免执行命名实体识别任务和语料分类任务的过程中规则的堆砌,共享涉及到命名实体识别和语料分类的高级语义信息,以及避免由于级联训练产生的级联误差放大的弊端,本申请实施例提供语料处理模型训练方法、装置、存储介质及电子设备。
一方面,本申请实施例提供了一种语料处理模型训练方法,所述方法包括:
为样本语料拼接标签,得到拼接结果;
对所述拼接结果进行切分处理,使得所述样本语料中的每个语料单元对应一个待识别命名实体的对象并且每个所述标签对应一个待分类的对象,根据切分处理结果得到对象序列;
通过特征提取网络对所述对象序列进行特征提取,得到特征信息序列;
通过实体识别网络对所述特征信息序列进行实体识别,得到实体识别结果序列,所述实体识别结果序列中每个实体识别结果表征对应的对象属于预设类目的概率分布,所述预设类目包括命名实体类目和分类类目;
确定所述对象序列中的对象对应的标注类目,得到标注路径;
根据所述实体识别结果序列和所述标注路径,调整所述特征提取网络和所述实体识别网络的参数;
根据调整后的所述特征提取网络和所述实体识别网络,得到所述语料处理模型。
另一方面,本申请实施例提供一种语料处理模型训练装置,所述装置包括:
拼接模块,用于为样本语料拼接标签,得到拼接结果;
切分模块,用于对所述拼接结果进行切分处理,使得所述样本语料中的每个语料单元对应一个待识别命名实体的对象并且每个所述标签对应一个待分类的对象,根据切分处理结果得到对象序列;
特征提取模块,用于通过特征提取网络对所述对象序列进行特征提取,得到特征信息序列;
实体识别模块,用于通过实体识别网络对所述特征信息序列进行实体识别,得到实体识别结果序列,所述实体识别结果序列中每个实体识别结果表征对应的对象属于预设类目的概率分布,所述预设类目包括命名实体类目和分类类目;
标注路径确定模块,用于确定所述对象序列中的对象对应的标注类目,得到标注路径;
训练模块,用于根据所述实体识别结果序列和所述标注路径,调整所述特征提取网络和所述实体识别网络的参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110356549.4/2.html,转载请声明来源钻瓜专利网。