[发明专利]医学特定指称及其关系的抽取方法、系统及装置在审
申请号: | 202010922664.9 | 申请日: | 2020-09-04 |
公开(公告)号: | CN112036171A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 顾大中;吴汇哲 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;张娓娓 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学 特定 指称 及其 关系 抽取 方法 系统 装置 | ||
本发明涉及人工智能,提供一种医学特定指称及其关系的抽取方法,包括:提取医学样本文献中的实体指称,并对所述实体指称进行语法位置标注;根据所述实体指称的语法位置标注确定各实体指称之间的路径关系,并根据所述路径关系生成候选抽取规则集;根据过滤规则对所述候选抽取规则集进行过滤;通过预设的验证模型对过滤后的候选抽取规则集进行验证,以确定最终抽取规则;利用所述最终抽取规则对获取的待识别文献进行处理,以提取所述待识别文献中的医学特定指称及其相互作用关系。本发明还涉及区块链技术,候选抽取规则集存储于区块链中。本发明提供技术方案既能够解决现有的医学文献抽取方法中不能自动解析医学特定指称及其相互作用关系的问题。
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种医学特定指称及其关系的抽取方法、系统、装置及存储介质。
背景技术
在医学文献分析过程中,通常需要对文献进行实体提取,找出文章中出现的医学实体,之后基于实体抽取的结果,做后续更复杂的分析。医学实体的种类很多,有疾病、药物等。其中“癌症”和“身体部位”是两类重要的医学实体。“癌症”类实体包括腺癌、鳞癌、黑色素瘤等,“身体部位”类实体包含胃、食管、肺等。
在抽取出实体之后,系统一般还会根据文章语义抽取实体之间的关系,例如“药物-治疗-疾病”,“手术-作用于-身体部位”等。在实际使用过程中,癌症及其发病部位这类的医学特定指称及其相互作用关系对于医生是非常重要的信息。比如一篇文章中有“腺癌”、“鳞癌”、“胃”、“食管”4个实体。那么这篇文章有可能讲的是“胃腺癌”和“食管鳞癌”,也可能讲的是“胃鳞癌”和“食管腺癌”。然而,这两种情况是完全不同的,在医学意义上有很大的差别,如果后续要做文献搜索任务,那么这两种情况对应的是完全不同的搜索关键词。因此仅仅抽取出文章的实体是不够的,还必须正确抽取出实体之间的关系,尤其是癌症与发病部位之间的关系。
基于以上问题,亟需一种能够正确抽取医学特定指称及其相互作用关系的实体抽取方法。
发明内容
本发明提供一种医学特定指称及其关系的抽取方法、系统、电子装置以及计算机存储介质,其主要目的在于解决现有的医学文献抽取方法中不能自动解析出医学特定指称及其相互作用关系的问题。
为实现上述目的,本发明提供一种医学特定指称及其关系的抽取方法,该方法包括如下步骤:
提取医学样本文献中的实体指称,并对所述实体指称进行语法位置标注;
根据所述实体指称的语法位置标注确定各实体指称之间的路径关系,并根据所述路径关系生成候选抽取规则集;
根据预设过滤规则对所述候选抽取规则集内的各候选抽取规则进行过滤;
通过预设的验证模型对过滤后的候选抽取规则集进行验证,以确定最终抽取规则;
利用所述最终抽取规则对获取的待识别文献进行处理,以提取所述待识别文献中的医学特定指称及其相互作用关系。
优选地,所述实体指称包括身体部分指称和医学特定指称;并且,在提取所述医学样本文献中的实体指称的过程中,
使用预设的命名实体识别系统对所述医学样本文献进行处理,以提取所述医学样本文献中的身体部位指称和医学特定指称。
优选地,在根据所述实体指称的语法位置标注确定各实体指称之间的路径关系的过程中,
根据语法依存树规则确定各身体部位指称和各医学特定指称之间的路径关系;并且,
各身体部位指称和各医学特定指称之间均确定有唯一一条路径关系。
优选地,所述候选抽取规则集存储在区块链中,根据所述路径关系生成所述候选抽取规则集的过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010922664.9/2.html,转载请声明来源钻瓜专利网。