[发明专利]一种命名实体提取方法、装置、电子设备及存储介质有效
申请号: | 201911303013.5 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111160032B | 公开(公告)日: | 2023-03-17 |
发明(设计)人: | 刘伟棠;李保敏;何林强 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 赵凯莉 |
地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 命名 实体 提取 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种命名实体提取方法、装置、电子设备及存储介质,由于在本发明实施例中,首先基于预先训练完成的命名实体提取模型,根据第一文本序列中每个第一目标文字的第一语义表示向量,提取第一文本序列中每个第一目标文字的开始边界标签,然后将预测开始边界标签时每个第一目标文字的每个第一标签概率与每个第一目标文字的第一语义表示向量进行拼接,得到第二语义表示向量,根据第二语义表示向量中每个第一目标文字的每个第一标签概率,可以确定每个实体开始边界的位置,考虑到每个实体开始边界的位置得出每个第一目标文字的结束边界标签,可以使得同一实体的结束边界位置在开始边界位置之后,从而提高了命名实体提取的准确性。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种命名实体提取方法、装置、电子设备及存储介质。
背景技术
命名实体提取作为信息提取的基石,是研究如何从文本中抽取出人名、地名、机构名等特定的实体并将其以结构化的形式呈现出来,对于问答、检索、知识图谱等技术的发展具有重要的意义。目前命名实体提取的技术方案一般包括:
1、使用BiLSTM+CRF模型将命名实体提取任务作为序列标记任务。该方法存在的问题是,无法提取嵌套实体,所谓嵌套实体是指一个实体中包含另一个实体,例如“浙江大学”为一个组织机构实体,但是其中又包含一个位置实体“浙江”。
2、结合使用激活学习和深度学习,采用sequence to sequence模式解决命名实体提取问题,分别使用CNN和LSTM作为编码器和解码器,并引入激活学习,从而实现在小数据集下模型能够取得良好的效果。该方法仍然存在无法提取嵌套实体的问题。
3、采用BERT+BiLSTM+CRF模型识别实体边界信息,通过边界组合产生候选实体集,最后使用CNN模型对候选实体集进行筛选。该方法存在的问题是,在产生实体边界时加入标记信息,这样会产生大量的候选实体,带来较大的计算量;另外该方法确定实体边界中,有可能出现结束边界在开始边界之前的情况,因此该方法可靠性较低,得到的命名实体的准确性较差。
发明内容
本发明实施例提供了一种命名实体提取方法、装置、电子设备及存储介质,用以解决现有技术中对于嵌套命名实体提取准确性较差的问题。
本发明实施例提供了一种命名实体提取方法,所述方法包括:
将待提取的第一文本序列输入预先训练完成的命名实体提取模型;基于所述命名实体提取模型进行命名实体提取;
其中,确定所述第一文本序列中每个第一目标文字的第一语义表示向量;
根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率;根据所述每个第一目标文字的每个第一标签概率,确定所述每个第一目标文字的开始边界标签;
将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量;根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率;根据所述每个第一目标文字的每个第二标签概率,确定所述每个第一目标文字的结束边界标签;
根据所述每个第一目标文字的开始边界标签和结束边界标签,提取所述第一文本序列中的实体。
进一步地,所述确定所述第一文本序列中每个第一目标文字的第一语义表示向量包括:
根据预先保存的每个文字与向量的对应关系,确定所述第一文本序列中每个第一目标文字的初始向量;
将所述每个第一目标文字的初始向量输入预先训练完成的语义表示子模型,得到所述每个第一目标文字的第一语义表示向量。
进一步地,所述根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911303013.5/2.html,转载请声明来源钻瓜专利网。