[发明专利]基于注意力机制的中文电子病历命名实体识别方法及系统在审
申请号: | 201911124973.5 | 申请日: | 2019-11-18 |
公开(公告)号: | CN110866401A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 谷兴龙;王庚 | 申请(专利权)人: | 山东健康医疗大数据有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06N3/04;G16H10/60 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250117 山东省济南市槐*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 中文 电子 病历 命名 实体 识别 方法 系统 | ||
本发明公开了一种基于注意力机制的中文电子病历命名实体识别方法及系统,属于文本信息挖掘领域,本发明要解决的技术问题为如何基于神经网络和注意力机制实现更加准确便捷地识别出电子病历中的命名实体,技术方案为:该方法步骤如下:S1、获取中文词语词性的词向量和词性向量表示并将词向量和词性向量拼接;S2、将词向量与词性向量拼接后输入Double‑LSTMs神经网络模型进行特征提取,以获取更加准确的隐层向量表示;S3、增加一层注意力层,为文本中相对重要的信息赋予更高的权重;S4、将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量,并分别将其进行拼接,作为特征向量;S5、基于条件随机场模型进行序列标注,实现命名实体的识别任务。
技术领域
本发明涉及文本信息挖掘技术领域,具体地说是一种基于注意力机制的中文电子病历命名实体识别方法及系统。
背景技术
医疗信息化的不断发展产生了大量的医疗数据,尤其是电子病历的产生,如何使用自然语言处理技术来处理电子病历,在其中提取出重要的信息服务于医生的临床决策,具有深远的研究意义,因此命名实体识别技术被提出。
目前,应用于中文电子病历命名实体识别的主要方法可以大致分为三种:基于规则和词典的方法、基于统计学习的方法以及将两种方法混合使用的方法。
其中,基于规则和词典的方法:基本思想主要是利用语言学家人工构造的规则模板,以字符串和模式进行匹配,所使用的特征主要包含方向词、中心词、统计信息、关键字、位置词等,而这些特征均依赖于词典构建的质量。基于规则与词典的方法最先被应用于命名实体的识别,但是该方法的跨领域适用性较差,而且构造规则、构建词典会需要花费大量的人力。
基于统计学习的方法:目前常被应用于命名实体识别的统计学方法有:最大熵、隐马尔科夫、条件随机场、支持向量机。这些常用的统计学方法,其共同之处在于对相应研究领域文本特征的选择要求会比较高,因此选择一些对实验结果影响显著的特征将会直接影响这些模型的识别效果;其次,由于不同领域的文本涉及到的命名实体均具有独特的特征,如何选择能够有效反映命名实体自身特有的特征集合也是一项相对复杂的任务,而这些也直接影响着模型的识别性能。
混合方法:根据目前的研究情况进一步表明,单独使用一种方法已经很难实现识别性能上的提升,因此,现在多数情况下,是将基于规则与词典的方法与基于统计学的方法进行组合使用,以期达到更好地识别效果,混合方法可以大致分为以下三种类型:
1)统计学习方法之间或内部层叠融合;
2)统计学习方法与规则、词典之间的融合,关键之处还在于两者之间融合技术的选择;
3)各类模型、算法之间的结合,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。
在混合方法中,关键之处在于如何有效地将这两种方法进行结合,而这也将直接影响到混合之后识别的性能。
以上所介绍的方法中,基于规则与字典的方法在识别效果中相对来说是比较好的,但是规则的构造、词典的构建均需要大量的人力,且构建的规则与词典也存在一定的领域局限性,普适性不强,限制了其广泛的使用;其次,基于单一的统计学方法又很难进一步实现识别性能的提升,因此,目前基于混合方法的命名体识别是主流。但是如何基于神经网络和注意力机制实现更加准确便捷地识别出电子病历中的命名实体是目前现有技术中急需解决的问题。
专利号为CN109871538A的专利文献公开了一种中文电子病历命名实体识别方法,包括步骤:1)构建普通词汇字典;2)简约词性标注;3)构建文本和词性向量映射表;4)训练命名实体的预测模型;5)命名实体的标签预测。该技术方案通过加入词性特征,来提高命名实体和普通词汇的边界可区分性,从而提高命名实体边界准确,但是不能基于神经网络和注意力机制实现更加准确便捷地识别出电子病历中的命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东健康医疗大数据有限公司,未经山东健康医疗大数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911124973.5/2.html,转载请声明来源钻瓜专利网。