[发明专利]一种信息抽取方法及装置有效

专利信息
申请号: 201711476786.4 申请日: 2017-12-29
公开(公告)号: CN108052508B 公开(公告)日: 2021-11-09
发明(设计)人: 李重勋;王利叶;胡可云;陈联忠 申请(专利权)人: 北京嘉和海森健康科技有限公司
主分类号: G06F40/289 分类号: G06F40/289
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王宝筠
地址: 100085 北京市海淀区上*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 信息 抽取 方法 装置
【说明书】:

本申请实施例公开了一种信息提取方法,根据预设词库对预设文本进行分词,得到第一分词结果,从第一分词结果中提取所包括的多个待定词,从多个待定词中确定出没有包含关系的待定词作为对第一分词结果的信息提取结果。由于采用了两次分词,不仅可以将较长的第一分词结果提取出来,还可以从较长的第一分词结果中进一步提取出较短的、不具有包含关系的对第一分词结果的信息抽取结果,例如从完整的表示手术名称的词中提取出表示部位、疾病等信息的词,一方面增加了提取到的信息量,另一方面,通过第一分词结果与第一分词结果的信息抽取结果的结构层次设置,增强了数据结构化效果,有利于数据查询和定位。本申请实施例还公开了一种信息提取装置。

技术领域

本申请涉及文本处理领域,尤其涉及一种信息抽取方法及装置。

背景技术

电子病历(Electronic Medical Record,EMR)也叫计算机化的病案系统或称基于计算机的病人记录。是医疗机构医务人员对门诊住院患者临床诊疗和指导干预、使用信息系统生成的文字、符号、图表、数据、图形等数字化的医疗服务工作记录。电子病历的发展为医生实时了解患者信息及临床科研提供了方便。但是目前电子病历中既有结构化数据也有非结构化数据,而其中一些重要信息大多存在于非结构化数据当中,例如电子病历中的主诉、现病史、既往史等。因此为了有效利用电子病历、发掘其中的有用信息就需要将非结构化数据生成结构化数据,该过程即为信息提取。

在信息提取过程中,常常需要基于预设的词库对文本进行分词,以得到有用的信息,例如表示疾病、症状、手术等的词。现有技术基于最长匹配原则进行分词,即按照与词库中匹配的最长词进行分词,但是在很多情况下,该最长词中还包括其他较短的词,这些词也是非常有用的信息,而基于最长匹配原则无法将这些较短的词也提取出来,因此提取到的信息较少,影响数据结构化的效果。

举例而言,假设基于最长匹配原则得到分词结果“膀胱内憩室切除术”,该词整体属于一个手术名称,但是在该词中,包括部位名称(膀胱内)、疾病名称(憩室)以及手术名称(切除术),由于“膀胱内憩室切除术”存在于词库中,所以若按照最长匹配原则,即便“膀胱内”、“憩室”和“切除术”这三个词也存在于词库中,也无法被提取出来。

发明内容

为了解决现有技术中不能对按照最长匹配原则得到的分词结果中较多的词进行提取的技术问题,本申请实施例提供了一种信息提取方法及装置。

第一方面,本申请实施例提供了一种信息抽取方法,所述方法包括:

根据预设词库对预设文本进行分词,得到第一分词结果;

基于所述预设词库,从所述第一分词结果中提取包括的多个待定词,所述多个待定词不包括所述第一分词结果;

从所述多个待定词中确定出没有包含关系的待定词作为对所述第一分词结果的信息抽取结果。

可选的,所述从所述多个待定词中确定出没有包含关系的待定词作为对所述第一分词结果的信息抽取结果包括:

按照每个待定词的首字和/或尾字在所述第一分词结果中的位置,对所述多个待定词进行排序;

若当前待定词存在相邻的下一个待定词,则判断所述当前待定词是否与所述相邻的下一个待定词具有包含关系,若否,则将所述当前待定词和/或所述相邻的下一个待定词作为所述信息抽取结果,所述当前待定词为所述多个待定词中的其中一个待定词。

可选的,若所述当前待定词与所述相邻的下一个待定词具有包含关系,则所述方法还包括:

若所述当前待定词包含所述相邻的下一个待定词,则将所述当前待定词覆盖所述相邻的下一个待定词,并令所述相邻的下一个待定词为当前待定词,执行所述判断所述当前待定词是否包含所述相邻的下一个待定词的步骤;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘉和海森健康科技有限公司,未经北京嘉和海森健康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711476786.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top