[发明专利]一种基于Lattice LSTM模型的中文电子病历的实体识别方法在审
申请号: | 202011011399.5 | 申请日: | 2020-09-23 |
公开(公告)号: | CN112151183A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 费若岚;高俊波 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F40/211;G06F40/242;G06F40/284;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 张妍;贾慧琴 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lattice lstm 模型 中文 电子 病历 实体 识别 方法 | ||
本发明公开了一种基于Lattice LSTM模型的中文电子病历的实体识别方法,包括以下步骤:步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;步骤2:基于双向Lattice LSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;步骤3:基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。此发明解决了传统中文电子病历命名实体识别存在的不足,通过Lattice LSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升了模型的识别效果,对未登录词也有一定的发现能力。
技术领域
本发明涉及命名实体识别技术领域,具体涉及一种基于Lattice LSTM模型的中文电子病历的实体识别方法。
背景技术
随着医疗信息的快速发展,电子医疗记录也呈现爆发式增长。大规模的电子病历记录了患者的整个医疗过程,包含患者大量的诊疗信息,是临床医学研究的重要数据来源。电子病历命名实体识别是利用计算机自动从非结构化的临床医学文本中识别并抽取与医学相关的命名实体对象,如身体部位、疾病、症状等,这些命名实体为后续医学系统构建和相关研究鉴定了工作基础。
但是,对于中文电子病历的命名实体识别,由于临床电子病历中存在较多的未登录词,给中文分词造成了很大的误差,而分词错误很大程度上影响了命名实体的识别效果。同时,由于医生的个人书写习惯,电子病历文本没有统一规范的书写格式,对于各种症状、药物等的缩写形式增加了电子病历命名实体的识别难度。
目前中文电子病历命名实体识别流行的方法主要分为:基于机器学习的方法和基于深度学习的方法。基于机器学习的方法主要包括隐马尔可夫模型(HMM)、最大熵(ME)、条件随机场(CRF),该方法将命名实体识别任务看成是一个序列标注任务,给输入句子中的每一个词语标注相应的标签,根据标签确定实体的边界位置和类型。缺点是对特征选取的质量要求较高,无法解决文本中的长依赖问题,而且无法识别未登录词。
因此,研究学者将深度学习应用到命名实体识别任务中,在英文领域效果最好的命名实体识别(NER)是BiLSTM-CRF模型,由于中英文语言特征的差异,中文文本没有类似英文文本中空格之类的标识符,中文实体识别首先要对文本进行分词,而中文电子病历中存在非常多的专业医学术语,会产生大量的分词错误从而导致在NER上的误差累加。而单纯的基于字符向量的BiLSTM-CRF模型会导致拆开很多并不该拆开的词语,从而丢失词语本来的内在信息。
基于以上存在问题,本发明考虑使用BiLSTM-CRF改进后的模型,即基于字向量的Lattice LSTM网格模型作为该发明的神经网络基模型。同时在中文电子病历的不同部分,医疗实体的类别属性有所差异,进行命名实体标注时存在分类的模糊问题,无法判断某些命名实体之间的界限。常见的有表示症状的实体经常会出现在疾病实体名中。面对这样的问题,本发明考虑在基模型的基础上结合医学领域的外部词典对多义词的多种意义进行建模,以减轻多义词的歧义,从而提高实体识别的效果。
发明内容
本发明的目的是提供一种基于Lattice LSTM模型的中文电子病历的实体识别方法。此方法旨在解决传统中文电子病历命名实体识别存在的不足,通过Lattice LSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升模型的识别效果,对未登录词也有一定的发现能力。
为达到上述目的,本发明提供了一种基于Lattice LSTM模型的中文电子病历的实体识别方法,包括以下步骤:
步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;
步骤2:基于双向Lattice LSTM编码模型,对电子病历数据的特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011011399.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种预制构件的施工管理方法及装置
- 下一篇:一种太阳能电池片制造用扩散炉炉管