[发明专利]一种命名实体的识别方法及装置有效

专利信息
申请号: 201910099201.4 申请日: 2019-01-31
公开(公告)号: CN109582975B 公开(公告)日: 2023-05-23
发明(设计)人: 刘宇;陈联忠;胡可云 申请(专利权)人: 北京嘉和海森健康科技有限公司
主分类号: G06F40/295 分类号: G06F40/295
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王宝筠
地址: 100085 北京市海淀区上*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 命名 实体 识别 方法 装置
【说明书】:

本申请公开了一种命名实体的识别方法及装置,且该方法包括:对目标文本中的命名实体进行词性标注;根据命名实体的词性和并列符号,确定目标文本中存在隐藏实体,并从目标文本中获取隐藏实体以及核心实体;对由核心实体的词根和隐藏实体构成的组合实体进行词性标注;核心实体的词根是根据核心实体的词性,在预设实体词根表中进行查询获取的;当组合实体的词性与核心实体的词性相同时,根据组合实体的词性,更新隐藏实体标注的词性。该方法不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。

技术领域

本申请涉及数据处理技术领域,尤其涉及一种命名实体的识别方法及装置。

背景技术

随着医疗信息化的发展,医疗数据的分析越来越重要。医疗数据可以是药品的流通数据、医疗活动的诊断数据以及医保报销的数据等数据,而且,由于这些医疗数据通常以电子病历的形式进行保存,因而可以通过对电子病历进行分析,实现对医疗数据的分析。为了能够精确地从大量的电子病历中获得有价值的数据,需要将电子病历中的数据转变为结构化数据,以便利用该结构化数据进行快速准确的查询以及分析。其中,结构化数据是指可以由二维表结构来逻辑表达和实现的数据。

在电子病历转变为结构化数据的过程中,需要先对电子病历中的命名实体进行识别,以便后续根据该识别结果对电子病历进行结构化处理。其中,命名实体是指以名称为标识的实体,而且,疾病、症状、手术、药品、检查以及检验等实体均是医学领域待识别的命名实体。

在病历文本中不仅包括易识别的命名实体,还包括不易识别的隐藏实体。其中,隐藏实体是指仅根据单个词语无法获得该词语的真实含义,但是结合整句文本能够理解该词语的具体含义的命名实体。

例如,假设病历文本为:红、青霉素过敏,在该病历文本中,“青霉素”是一个易识别的命名实体,但是,由于仅根据“红”无法识别出“红霉素”的真实含义,需要结合整句文本的语义可以识别出“红”代表红霉素的真实含义,因而,“红”是一个隐藏实体。

然而,由于现有的命名实体识别方法均是通过将病历文本拆分成多个命名实体,并对每个命名实体进行词性识别,而隐藏实体的真实含义无法通过单个命名实体进行准确地表示,因而,现有的实体识别方法均无法识别电子病历中的隐藏实体的词性,从而导致现有的命名实体识别方法对命名实体的识别精确度比较低。

例如,当利用现有的命名实体识别方法对“红、青霉素过敏”进行词性识别时,先将该文本进行拆分得到“红”、“、”、“青霉素”和“过敏”的命名实体,然后利用命名实体识别方法对每个命名实体进行词性识别,得到每个分词的识别结果。此时,现有的命名实体识别方法能够根据分词“青霉素”识别出“青霉素”这个药品,但无法根据分词“红”识别出“红霉素”这个药品,导致现有的命名实体识别方法对命名实体的识别精确度比较低。

发明内容

为了解决现有技术中存在的以上技术问题,本申请提供一种命名实体的识别方法及装置,能够对病历文本中的隐藏实体进行精确的识别,从而提高命名实体的识别精确度,进而提高后续医疗数据分析的精确度。

为了实现上述目的,本申请提供的技术方案如下:

本申请提供一种命名实体的识别方法,包括:

步骤A:对目标文本中的命名实体进行词性标注;

步骤B:根据所述命名实体的词性和并列符号,确定所述目标文本中存在隐藏实体,并从所述目标文本中获取隐藏实体以及核心实体;

步骤C:对由核心实体的词根和所述隐藏实体构成的组合实体进行词性标注;所述核心实体的词根是根据所述核心实体的词性,在预设实体词根表中进行查询获取的;

步骤D:当所述组合实体的词性与所述核心实体的词性相同时,根据所述组合实体的词性,更新所述隐藏实体标注的词性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘉和海森健康科技有限公司,未经北京嘉和海森健康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910099201.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top