[发明专利]命名实体识别方法、装置、设备、介质和程序产品在审
申请号: | 202211110090.0 | 申请日: | 2022-09-13 |
公开(公告)号: | CN115563978A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 杨东泉;陈东来;何锦源;张军涛;王天星 | 申请(专利权)人: | 深圳前海环融联易信息科技服务有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/08 |
代理公司: | 深圳众鼎汇成知识产权代理有限公司 44566 | 代理人: | 朱业刚 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 装置 设备 介质 程序 产品 | ||
1.一种命名实体识别方法,其特征在于,所述方法包括:
获取被识别句子;
将所述被识别句子输入已训练得到的目标神经网络模型,得到所述被识别句子的词语属于第一标签集的各个第一标注标签的第一预测概率值,以及属于第二标签集的各个第二标注标签的第二预测概率值;
将所述第一预测概率值最大的第一标注标签的标签类型作为所述词语的第一预测标签类型,并将所述第二预测概率值最大的第二标注标签的标签类型作为所述词语的第二预测标签类型;
根据所述词语的第一预测标签类型和第二预测标签类型,确定所述词语的最终预测标签类型;
其中,所述目标神经网络模型为已训练好命名实体识别模型作为老师网络模型对学生网络模型进行蒸馏训练得到。
2.如权利要求1所述的命名实体识别方法,其特征在于,所述第一标签集和第二标签集的各标签均采用BIO序列标注,所述根据所述词语的第一预测标签类型和第二预测标签类型,确定所述词语的最终预测标签类型,包括:
当所述第一预测标签类型和所述第二预测标签类型均为标签类型O,则确定所述词语的最终预测标签类型为标签类型O;
当所述第一预测标签类型和所述第二预测标签类型中,其中一个为标签类型B,另一个为所述标签类型O,则确定所述词语的最终预测标签类型为所述标签类型B;
当所述第一预测标签类型和所述第二预测标签类型均为所述标签类型B,则从所述第一预测标签类型和所述第二预测标签类型中取预测概率值最大的标签类型作为所述最终预测标签类型;
当所述第一预测标签类型和所述第二预测标签类型两者中,其中一个预测标签类型是标签类型I,则根据所述词语的前一词语的标签类型和实体命名类别确定所述最终预测标签类型。
3.如权利要求2所述的命名实体识别方法,其特征在于,所述根据所述词语的前一词语的标签类型和实体命名类别确定所述最终预测标签类型,包括:
当所述词语的前一词语的标签类型为所述标签类型B或标签类型I,且所述词语的实体命名类别与所述前一词语的实体命名类别相同,则确定所述最终预测标签类型为所述标签类型I;
当所述词语的前一词语的标签类型为标签类型O,或者所述词语的命名类别与所述词语的前一词语的实体命名类别不相同,则将所述其中一个预测标签类型更改为所述标签类型O,并结合所述第一预测标签类型和所述第二预测标签类型中的另一预测标签类型进行标签预测,以确定所述最终预测标签类型。
4.如权利要求1所述的命名实体识别方法,其特征在于,所述目标神经网络模型通过如下方式训练得到:
将训练句子输入至已训练好的老师网络模型中,得到所述训练句子中每个词语属于第一标签集中的第一标注标签的第三预测概率值;
将所述训练句子输入至学生网络模型中,得到所述训练句子的每个词语属于所述第一标注标签的第四预测概率值以及属于第二标签集的第二标注标签的第五预测概率值;
根据每个词语的第五预测概率值和所述每个词语属于第二标注标签的真实值,计算第一损失值,并根据每个词语属于所述第一标注标签的第三预测概率值和属于所述第一标注标签的第四预测概率值,计算第二损失值;
根据所述第一损失值和所述第二损失值约束所述学生网络模型的训练,直至所述学生网络模型符合预设条件,将满足符合所述预设条件的所述学生网络模型作为所述目标神经网络模型。
5.如权利要求4所述的命名实体识别方法,其特征在于,所述第一标签集中的实体标注标签对应的命名实体类别,与所述第二标签集的实体标注标签对应的命名实体类别不相同。
6.如权利要求4所述的命名实体识别方法,其特征在于,所述根据所述第一损失值和所述第二损失值约束所述学生网络模型的训练,直至所述学生网络模型符合预设条件,包括:
获取所述第一损失值对应的第一权重,并获取所述第二损失值对应的第二权重;
根据所述第一损失值、第二损失值、第一权重和第二权重,计算总损失值;
利用所述总损失值约束所述学生网络模型的训练,直至所述学生网络模型符合预设条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海环融联易信息科技服务有限公司,未经深圳前海环融联易信息科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211110090.0/1.html,转载请声明来源钻瓜专利网。