[发明专利]电子病历命名实体识别方法、电子设备及存储介质在审
申请号: | 202111133749.X | 申请日: | 2021-09-27 |
公开(公告)号: | CN113836926A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 李冬梅;隆娇;曲锦涛 | 申请(专利权)人: | 北京林业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 蔡纯;张靖琳 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 病历 命名 实体 识别 方法 电子设备 存储 介质 | ||
1.一种电子病历命名实体识别方法,包括:
获取电子病历的文本数据;以及
将所述文本数据输入至命名实体识别模型,获得与所述文本数据相对应的命名实体识别结果,
其中,所述命名实体识别模型包括嵌入层、卷积神经网络层、多头注意力层和条件随机场层,
在嵌入层中,在电子病历文本的句子中提取单个字符,以及动态获取所述单个字符上下文相关的语义表示,
在卷积神经网络层中,基于所述单个字符上下文相关的语义表示获取全局语义信息,
在多头注意力层中,通过采用多角度捕获所述句子的多个字符之间的相关性,获得多个预测标签的概率,以及
在条件随机场层中,通过约束所述多个预测标签之间的依赖关系,获得所述单个字符的最佳预测标签。
2.根据权利要求1所述的命名实体识别方法,其中,动态获取所述单个字符上下文相关的语义表示的步骤包括:
采用ALBERT模型,计算所述单个字符的字符特征、所述句子的句子特征、所述单个字符在所述句子中的位置特征;以及
将字符特征、句子特征和位置特征叠加得到上下文相关的字符向量。
3.根据权利要求2所述的命名实体识别方法,其中,基于所述单个字符上下文相关的语义表示获取全局语义信息的步骤包括:
采用迭代膨胀卷积神经网络模型,将所述单个字符进行膨胀卷积编码,自动提取所述单个字符在文本中的长距离语义特征,从而获得所述单个字符的特征向量,所述特征向量包括权重相同的多个特征。
4.根据权利要求3所述的命名实体识别方法,获得多个预测标签的概率的步骤包括:
对所述单个字符的特征向量进行多次单头自注意力计算;以及
拼接所述多次单头自注意力计算的计算结果以及进行线性变换,以获得所述单个字符的多头注意力计算结果,
其中,所述多头注意力计算结果表示所述单个字符的多个预测标签的概率。
5.根据权利要求4所述的命名实体识别方法,其中,获得所述单个字符的最佳预测标签的步骤包括:
对于电子病历文本中的句子,采用条件随机场模型对多个字符的标签序列进行标签解码,以获得单个字符的最佳预测标签。
6.根据权利要求1所述的命名实体识别方法,还包括:根据所述最佳预测标签将彼此关联的多个字符组合成一个实体提及。
7.根据权利要求1所述的命名实体识别方法,其中,所述命名实体识别结果包括实体提及和预定义类别。
8.根据权利要求7所述的命名实例识别国方法,其中,所述预定义类别包括疾病和诊断、影像检查、实验室检验、手术、药物和解剖部位。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任意一项所述基于深度学习的命名实体识别方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述基于深度学习的命名实体识别方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111133749.X/1.html,转载请声明来源钻瓜专利网。