[发明专利]中文电子病历命名实体抽取方法及系统有效
申请号: | 201910313195.8 | 申请日: | 2019-04-18 |
公开(公告)号: | CN110032739B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 江瑞;黄浩 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 曹素云;董永辉 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 电子 病历 命名 实体 抽取 方法 系统 | ||
本发明公开了一种中文电子病历命名实体抽取方法及系统。该方法包括:通过字符嵌入层将输入语句中的每个字映射为一个向量;采用LSTM模型输入字符序列,获得隐表示向量;将每个字作为以该字为结尾的语义单位的最后一个字,进行语义分割,得到该字对应的所有网格编码;将每个字的所有网格编码进行线性组合,得到最后的每个字符的向量,其中,线性组合中的权重由自注意力机制给出;采用深度残差网络作为输出解码层,解码出命名实体链。本发明中文电子病历命名实体抽取方法及系统可以自动从中文电子病历中抽取各种医学命名实体,且提高了抽取效率,免去了病历结构化过程中人工消耗。
技术领域
本发明属于医疗文本数据挖掘技术领域,特别是涉及一种中文电子病历命名实体抽取方法及系统,尤其用于一种名为多系统萎缩的罕见病的中文电子病历文本医学命名实体的识别和提取。
背景技术
一方面,近年来我国各级医院逐渐采用电子病案管理系统代替传统的手写病历,从而累积了越来越多的电子病历。常规的电子病历中,信息的主要载体是自然语言,比如,影像报告、用药记录、病程报告和病例检查报告等。可以说,这些自然语言文本蕴含着患者诊疗过程中的主要临床信息。另一方面,随着以大数据、人工智能为代表的信息技术与医学的深度融合,催生了诸如精准医疗、临床决策支持、医学数据挖掘、疾病风险评估等一系列新的概念和方法。
但是,这些新概念、新方法的实现高度依赖巨量的真实、准确、可靠的结构化的诊疗数据。通常医院无法直接使用电子病历中的信息、更无法使其服务于临床。临床电子病历设计的初衷是面向记录,而不是面向研究,也就是说,医生会把临床的所有的情况原原本本地记录下来,但却并没有针对信息做面向研究和应用的加工处理。这样一来,临床电子病历大部分都是自然语言,这种文本信息放到计算机里无法进行任何形式的计算,所以首先要做的是数据结构化。也就是说,现实中的病历数据大都是非结构化的。正因为如此,将非结构化的医疗数据进行结构化成为一个必要而关键的步骤。考虑到数据量巨大,若依靠人工来进行结构化,其经济成本无疑将十分高昂。所以,利用计算机自动的从电子病历中提取结构化的临床信息是一种理性的选择。
电子病历的命名实体识别(Named Entity Recognition,NER),是读入电子病历文本,识别和抽取出与医学临床相关的实体,结合数据源“现病史记录”的内容及特点,将它们归类到预定义类别。在电子病历结构化过程中,从病例文本提取出各种医学关心的概念类(症状、时间、部位、程度等等)是一个关键问题。一些疾病的名称,医院里甚至有上百种表达方式。所以,要从整段的自然语言文本里提出数据,如果没有技术支撑,需要巨大的人力投入。中文电子病历的命名实体识别的初衷在此。
医学信息抽取系统是病例结构化系统的子系统,一种可以自动将症状、时间、修饰符、治疗方式和诊断结果提取出来的系统,对于病例结构化系统的性能有重大影响。信息提取的准确性对于后续医疗数据分析流程有着基础性的影响。因此,一个好的信息提取系统可以帮助提高病例结构化的准确性,也能更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。目前尚无针对罕见病电子病历进行专门优化的医学命名实体识别并抽取的方法和系统。
发明内容
基于上述问题,本发明目的在于提供一种中文电子病历命名实体抽取方法,尤其是用于对罕见病电子病历进行专门优化的医学命名实体的识别和抽取;以提高抽取效率,免去病历结构化过程中人工消耗。
本发明的另一目的在于提供一种中文电子病历命名实体抽取系统。
上述目的是通过以下技术方案实现的:
根据本发明的一个方面,本发明提供的一种中文电子病历命名实体抽取方法,包括以下步骤:
步骤一,通过字符嵌入层将输入语句中的每个字映射为一个向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910313195.8/2.html,转载请声明来源钻瓜专利网。