[发明专利]一种命名实体的识别方法及装置有效
申请号: | 201910099201.4 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109582975B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 刘宇;陈联忠;胡可云 | 申请(专利权)人: | 北京嘉和海森健康科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 命名 实体 识别 方法 装置 | ||
1.一种命名实体的识别方法,其特征在于,包括:
步骤A:对目标文本中的命名实体进行词性标注;
步骤B:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;所述目标文本中隐藏实体与所述目标文本中并列符号相邻;所述目标文本中核心实体与所述目标文本中并列符号相邻;所述目标文本中隐藏实体的词性不同于所述目标文本中核心实体的词性;
步骤C:对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
步骤D:当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。
2.根据权利要求1所述的方法,其特征在于,所述进行词性标注,具体包括:
利用基于统计模型的方法进行词性标注;
和/或,
利用基于字典的方法进行词性标注。
3.根据权利要求2所述的方法,其特征在于,当利用基于字典的方法进行词性标注时,还包括:
当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至所述字典。
4.根据权利要求2所述的方法,其特征在于,当利用基于统计模型的方法进行词性标注时,还包括:
当所述组合实体的词性与所述核心实体的词性不相同时,将所述组合实体存储至预设区域;
当获取所述预设区域中的实体对应的词性之后,将所述预设区域中的实体以及其对应的词性,添加至训练数据库,以便利用添加后的训练数据库重新训练所述统计模型。
5.根据权利要求1所述的方法,其特征在于,所述从所述目标文本中获取隐藏实体以及核心实体,具体包括:
将所述目标文本进行拆分,得到至少一个命名实体;
根据与并列符号相邻的命名实体,得到隐藏实体和核心实体。
6.根据权利要求1所述的方法,其特征在于,所述步骤D之后,还包括:
利用所述组合实体替换标注后的目标文本中的隐藏实体,得到识别文本。
7.根据权利要求1所述的方法,其特征在于,所述根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,具体包括:
判断与并列符号相邻的命名实体的词性是否相同;
当与并列符号相邻的命名实体的词性不相同时,确定所述目标文本中存在隐藏实体。
8.根据权利要求1所述的方法,其特征在于,所述B、C和D,具体包括:
S1:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取核心实体以及至少一个备选隐藏实体;
S2:对由核心实体的词根和所述备选隐藏实体构成的备选组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;
S3:当存在与所述核心实体的词性相同的备选组合实体时,根据与所述核心实体的词性相同的备选组合实体,得到目标组合实体以及目标隐藏实体;
S4:根据目标组合实体的词性,更新所述目标隐藏实体标注的词性。
9.根据权利要求8所述的方法,其特征在于,所述S3,具体包括:
当存在两个以上与所述核心实体的词性相同的备选组合实体时,将所有与所述核心实体的词性相同的备选组合实体中字数最多的备选组合实体作为目标组合实体,并根据目标组合实体对应的备选隐藏实体得到目标隐藏实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘉和海森健康科技有限公司,未经北京嘉和海森健康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910099201.4/1.html,转载请声明来源钻瓜专利网。