[发明专利]实体标注模型的训练方法、实体标注方法以及装置有效
申请号: | 201811314682.8 | 申请日: | 2018-11-06 |
公开(公告)号: | CN111143571B | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 李宽;杨春勇;权圣 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何倚雯 |
地址: | 401120 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 标注 模型 训练 方法 以及 装置 | ||
1.一种实体标注模型的训练方法,其特征在于,所述训练方法包括:
将已标注语料以及目标领域的未标注语料输入到深度序列模型;
通过所述深度序列模型根据所述已标注语料的实体类型对所述目标领域的未标注语料进行实体类型的标注,得到所述目标领域的未标注语料的标注实体类型;
通过所述深度序列模型对所述目标领域的未标注语料进行实体类型预测,得到所述目标领域的未标注语料的预测实体类型;
将所述标注实体类型与所述预测实体类型进行比对,根据比对结果对所述深度序列模型进行优化训练,得到所述深度序列模型的当前优化模型参数;
基于所述当前优化模型参数对所述深度序列模型进行迭代训练;
根据迭代次数是否达到设定数量或迭代训练后的深度序列模型的输出正确率是否高于设定概率确定对所述深度序列模型是否进行再训练,并得到所述实体标注模型,所述实体标注模型为训练完成的所述深度序列模型;
所述通过所述深度序列模型根据所述已标注语料的实体类型对所述目标领域的未标注语料进行实体类型的标注,得到所述目标领域的未标注语料的标注实体类型的步骤具体包括:
基于所述目标领域的未标注语料的上下文信息或/和在设定数据库中的概率确定所述目标领域的未标注语料的实体边界;
利用所述实体边界对所述目标领域的未标注语料的实体进行抽取;
基于所述已标注语料的实体类型,将所述目标领域的未标注语料中的与所述已标注语料的类型相同的实体进行聚类,得到所述目标领域的未标注语料的所述标注实体类型。
2.根据权利要求1所述的训练方法,其特征在于,所述基于所述当前优化模型参数对所述深度序列模型进行迭代训练的步骤具体包括:
基于所述目标领域的无标注语料以及所述已标注语料基于所述当前优化模型参数对所述深度序列模型进行迭代训练。
3.根据权利要求1所述的训练方法,其特征在于,所述根据迭代次数是否达到设定数量或迭代训练后的深度序列模型的输出正确率是否高于设定概率确定对所述深度序列模型是否进行再训练,并得到所述实体标注模型,所述实体标注模型为训练完成的所述深度序列模型的步骤具体包括:
当迭代次数达到设定数量或迭代训练后的深度序列模型的输出正确率高于设定概率时,将经所述迭代训练后的深度序列模型确定为所述实体标注模型。
4.根据权利要求1-3任一项所述的训练方法,其特征在于,所述通过所述深度序列模型根据所述已标注语料的实体类型对所述目标领域的未标注语料进行实体类型的标注,得到所述目标领域的未标注语料的标注实体类型的步骤包括:
通过所述已标注语料对所述深度序列模型进行训练,得到训练后的深度序列模型;
通过所述训练后的深度序列模型根据所述已标注语料的实体类型对所述目标领域的未标注语料进行实体类型的标注,得到所述目标领域的未标注语料的所述标注实体类型。
5.一种实体标注方法,其特征在于,所述实体标注方法基于实体标注模型,所述实体标注模型是通过权利要求1-4任一项训练方法训练得到的,包括:
接收到待标注的语料;
通过所述实体标注模型对所述待标注的语料进行实体抽取,并对所述实体的类型进行标注;
输出所述待标注的语料的实体类型标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811314682.8/1.html,转载请声明来源钻瓜专利网。